OpenAI 推出新一代语音模型 API

新榜出品

发布时间：2025/03/21

新榜讯今日凌晨，OpenAI 正式宣布在其 API 中全新上线新一代音频模型，涵盖语音转文本和文本转语音等功能，为开发者打造强大语音 Agent 提供有力支持。

新榜讯今日凌晨，OpenAI 正式宣布在其 API 中全新上线新一代音频模型，涵盖语音转文本和文本转语音等功能，为开发者打造强大语音 Agent 提供有力支持。新产品的核心亮点包括：· gpt-4o-transcribe（语音转文本）：单词错误率（WER）大幅降低，在多项基准测试中力压现有 Whisper 模型。其凭借多样化、高品质音频数据集历经长时间训练，能够精准捕捉语音细微差异，减少误识别，极大提升转录的可靠性，在应对口音繁杂、环境嘈杂、语速多变等挑战场景时表现更为出色；· gpt-4o-mini-transcribe（语音转文本）：作为 gpt-4o-transcribe 的精简版，基于 GPT-4o-mini 架构，通过知识蒸馏技术从大模型获取能力，速度更快、效率更高，适用于资源有限但对语音识别质量有要求的应用场景；· gpt-4o-mini-tts（文本转语音）：首次实现「可引导性」（steerability），开发者不仅能设定“说什么”，还能掌控“如何说”。具体来说，开发者能够预设多种语音风格，并能依据指令调整语音风格。特别值得注意的是，gpt-4o-transcribe 与 gpt-4o-mini-transcribe 这两款模型在 FLEURS 多语言基准测试中的表现远超现有的 Whisper v2 和 v3 模型，在英语、西班牙语等多种语言方面表现尤为突出。在价格方面，gpt-4o-transcribe 与之前的 Whisper 模型定价相同，每分钟 0.006 美元；而 gpt-4o-mini-transcribe 仅为前者的一半，每分钟 0.003 美元；gpt-4o-mini-tts 则为每分钟 0.015 美元。目前，所有全新音频模型已面向全球开发者开放。此外，OpenAI 还介绍了两种构建语音 Agent 的技术路径：· 「语音到语音模型」采用端到端的直接处理模式：系统能够直接接收用户的语音输入并生成语音回复，无需中间转换环节；· 「链式方法」：首先运用语音转文本模型将用户语音转换为文字，接着由大型语言模型(LLM)处理这些文本内容并生成回应文本，最后通过文本转语音模型将回应转换为自然语音输出。其优势在于模块化设计，各组件可独立优化；处理结果更稳定；同时开发门槛更低，开发者能够基于现有文本系统快速增添语音功能。

往期推荐

李国庆回应直播带货1年赚2500万：用于公司开销

2025/06/28

美腕旗下奈娃咖啡首战618，第一波GMV近500万元

2025/06/28

抖音618期间超500个红人店销售额突破千万

2025/06/28