快科技9月1日讯,OpenAI已正式推出语音模型GPT-realtime。
据悉,GPT-realtime是一个聚焦于语音AI Agent的多模态模型,能够产出极为自然流畅的语音,精确再现人类语调、情感以及语速的丰富多样变化。此模型支持图像理解,还能与语音或文本对话相结合运用,特别适用于客服、教育、金融、医疗等领域,用以构建高品质的语音智能体。
官方宣称,新模型在复杂指令执行、工具精准调用以及生成更自然、更具表现力的语音方面表现出色。尤其是在重复字母与数字、逐字宣读免责声明、语句间无间断切换语言等场景中,GPT-realtime展现出良好的适应能力。
该模型还拥有卓越的上下文理解能力,能够精准捕捉非语言线索(比如笑声),并实时调节语音语气,达成诸如带有法国口音的友好语调”或者语速较快的专业语调”等多种表达。
另外,GPT-realtime增添了Cedar”和Marin”两种语音风格,并且对现有的八种语音效果进行了全方位优化。
(举报)