新榜讯 今日凌晨,OpenAI 正式宣布在其 API 中全新上线新一代音频模型,涵盖语音转文本和文本转语音等功能,为开发者打造强大语音 Agent 提供有力支持。新产品的核心亮点包括:· gpt-4o-transcribe(语音转文本):单词错误率(WER)大幅降低,在多项基准测试中力压现有 Whisper 模型。其凭借多样化、高品质音频数据集历经长时间训练,能够精准捕捉语音细微差异,减少误识别,极大提升转录的可靠性,在应对口音繁杂、环境嘈杂、语速多变等挑战场景时表现更为出色;· gpt-4o-mini-transcribe(语音转文本):作为 gpt-4o-transcribe 的精简版,基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型获取能力,速度更快、效率更高,适用于资源有限但对语音识别质量有要求的应用场景;· gpt-4o-mini-tts(文本转语音):首次实现「可引导性」(steerability),开发者不仅能设定“说什么”,还能掌控“如何说”。具体来说,开发者能够预设多种语音风格,并能依据指令调整语音风格。 特别值得注意的是,gpt-4o-transcribe 与 gpt-4o-mini-transcribe 这两款模型在 FLEURS 多语言基准测试中的表现远超现有的 Whisper v2 和 v3 模型,在英语、西班牙语等多种语言方面表现尤为突出。 在价格方面,gpt-4o-transcribe 与之前的 Whisper 模型定价相同,每分钟 0.006 美元;而 gpt-4o-mini-transcribe 仅为前者的一半,每分钟 0.003 美元;gpt-4o-mini-tts 则为每分钟 0.015 美元。目前,所有全新音频模型已面向全球开发者开放。 此外,OpenAI 还介绍了两种构建语音 Agent 的技术路径:· 「语音到语音模型」采用端到端的直接处理模式:系统能够直接接收用户的语音输入并生成语音回复,无需中间转换环节;· 「链式方法」:首先运用语音转文本模型将用户语音转换为文字,接着由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转换为自然语音输出。其优势在于模块化设计,各组件可独立优化;处理结果更稳定;同时开发门槛更低,开发者能够基于现有文本系统快速增添语音功能。