OpenAI发布语音智能体全家桶，引领AI交互新时代-科技前沿-资讯-智能装备网

OpenAI通过一场技术直播，向全球开发者隆重推出了其最新的语音智能体全家桶。这一创新之举不仅标志着OpenAI在AI语音技术领域的重大突破，更为未来的智能交互体验开启了全新的篇章。

在此次发布的语音智能体全家桶中，OpenAI推出了三款全新的语音模型，专为开发语音AI Agent而设计。其中包括两款语音转文本模型——GPT-4o-transcribe和GPT-4o-mini-transcribe，以及一款文本转语音模型——GPT-4o-mini-tts。这些模型在性能上实现了质的飞跃，特别是在语音识别的准确性和文本转语音的自然度方面，均达到了前所未有的水平。

据OpenAI平台负责人Olivier Godement介绍，语音是人类最自然的交互方式，相较于读写，语音沟通更加便捷和人性化。因此，OpenAI一直致力于打造可靠、精准、灵活的语音智能体，以拓展AI的应用场景。此次推出的语音智能体全家桶，正是这一愿景的重要里程碑。

GPT-4o-transcribe和GPT-4o-mini-transcribe两款语音转文本模型，在各种语言的转录准确率上都实现了显著提升，使得AI能够更准确地理解人类语音。而GPT-4o-mini-tts文本转语音模型，则首次让开发者可以精细控制AI的发声方式，包括语调、情感等，从而打造出更富有人性的声音体验。

为了方便开发者使用这些新模型，OpenAI还特意开发了一个新的网站（http://OpenAI.fm），供开发人员尝试OpenAI API中的新文本转语音模型。在这个网站上，开发者可以选择不同的声音、不同的情绪来表达文本，也可以自己输入文本进行体验。

此外，OpenAI还对之前发布的Agent SDK进行了重大更新，深度整合了最新的语音转文本和文本转语音模型。这使得开发者无需复杂配置，即可为智能体赋予“耳朵”和“嘴巴”，实现双向流式传输，大幅提升语音交互的流畅性。

OpenAI的专家Jeff Harris在直播中分享了构建语音智能体的两种主要方法：一种是直接使用“语音-语音”模型，让AI直接理解音频并输出语音；另一种是链式调用音频模型与文本模型，这种方案更易上手、更可靠，也是OpenAI此次重点推荐的方式。

值得注意的是，尽管性能炸裂，但OpenAI此次推出的语音智能体全家桶在价格上却十分亲民。GPT-4o-transcribe每分钟0.6美分，与之前的Whisper模型价格一致；GPT-4o-mini-transcribe每分钟仅需0.3美分，性价比更高；而GPT-4o-mini-tts文本转语音模型，每分钟也仅需1美分。

此次OpenAI推出的语音智能体全家桶，无疑将极大地推动AI语音技术的发展和应用。随着这些新模型和工具的普及，我们可以期待在未来看到更多智能化、人性化的语音交互产品，为人们的生活带来更大的便利和乐趣。

OpenAI发布语音智能体全家桶，引领AI交互新时代

相关资讯

我是采购商

我是供应商

增值服务

联系平台

平台客服