AI热点 4天前 208 浏览次数 0 评论

OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

快科技

发布了 42 文章

快科技9月1日讯,OpenAI已正式推出语音模型GPT-realtime。

据悉,GPT-realtime是一个聚焦于语音AI Agent的多模态模型,能够产出极为自然流畅的语音,精确再现人类语调、情感以及语速的丰富多样变化。此模型支持图像理解,还能与语音或文本对话相结合运用,特别适用于客服、教育、金融、医疗等领域,用以构建高品质的语音智能体。

官方宣称,新模型在复杂指令执行、工具精准调用以及生成更自然、更具表现力的语音方面表现出色。尤其是在重复字母与数字、逐字宣读免责声明、语句间无间断切换语言等场景中,GPT-realtime展现出良好的适应能力。

该模型还拥有卓越的上下文理解能力,能够精准捕捉非语言线索(比如笑声),并实时调节语音语气,达成诸如带有法国口音的友好语调”或者语速较快的专业语调”等多种表达。

另外,GPT-realtime增添了Cedar”和Marin”两种语音风格,并且对现有的八种语音效果进行了全方位优化。

(举报)

快科技

快科技

42 文章 6120 浏览次数 13689 粉丝

评论 (0)

睡觉动画