AI人物 23小时前 169 浏览次数 0 评论

WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔

新智元
新智元

发布了 145 文章

编辑:Aeneas 桃子

【新智元导读】WAIC 2025大会上,一套国产AI同传系统技惊四座。从AI教父Hinton金句翻译,到多语种实时翻译,它实现了2秒极致响应,超8万专业词汇拿捏到位,如母语般丝滑交流。作为WAIC唯一翻译合作伙伴,这家中国公司成为了全场瞩目的焦点。


刚刚过去的WAIC大会现场,一套同传系统彻底惊艳了全场。

AI教父Hinton的重磅演讲《数字智能是否会取代生物智能》金句频出,时不时引起全场赞叹。

当他用标准的伦敦腔讲述自己的观点时,几乎就在张口的同一瞬间,标准的中文翻译就同步出现了右边的大屏上。

而在场的每一位观众,都能立刻秒懂对应的英文内容,因为右边的字幕精准、流畅,完全符合中文读者的理解习惯。

无论是多专业的术语,多深奥的表达,都能立刻被这套系统完美地捕捉,转化出的翻译极度符合语境。

演讲结束后,现场爆发出热烈的掌声,可以说,一方面是出于现场观众对于AI教父精彩演讲的反响,另一方面,也是对于旁边这位由AI「国家队」科大讯飞打造的「AI同传」的肯定。

要知道,2018年讯飞还在和国内其他大厂同台竞技,共同为WAIC提供AI同传服务;而到了今年,讯飞已经成了WAIC 2025的唯一翻译合作伙伴。

走到这个位置,懂行的人都知道一款产品得做到多么优秀才行。毕竟,WAIC的现场可随时随地都是真刀真枪的考验——30多个国家、1200余位嘉宾的实时交流场景,能完美做到无障碍跨语言交流,技术门槛可谓相当高。

七年里,究竟发生了什么,让讯飞的产品成为了国际大会的AI同传首选?


WAIC 2025唯一翻译合作伙伴

讯飞如何做到?


这,就要从以往同传背后的重重难点说起。

很多人认为,如今AI大模型的突飞猛进,实时语音同传必然变得轻而易举。

然而出乎大家意料的是,多年以来AI同传其实都难以完全落地。

首先的一大难点,就是实时性与高延迟之间的矛盾。

因为同传强调的是同步,延迟必须极短,翻译结果必须准确,还要几乎立即同时呈现。在这种极端情况下,很难避免翻译质量的下降。

第二大难点,就是上下文语境的精准理解。

人类语言中充满了歧义、隐喻、指代,这些都需要结合上下文才能准确理解。想要实时准确翻译大量专业术语,就需要提前做好知识储备和领域知识建模。

一些让人啼笑皆非的AI翻译翻车现场(左右滑动查看)

更何况,大会演讲者可能使用不同的方言和口音,甚至会出现口误;会议的演讲现场也环境复杂,会存在噪音、回声、交叠说话等问题。

此外,不同语言的结构差异,也会让同传的难度大大增加。比如中英文的语序截然不同,翻译系统很可能需要等待一句话结束,才开始翻译,这就会带来严重的延迟。

同传中还有一大难点,就是语音合成。在传统同传模式下,最终的翻译由译员的声音播报,这使得听感比视觉呈现更为流畅,不会对视觉造成干扰。

而在AI同传要达到同样的效果,就需要声音快速无缝衔接,仿佛有一个真人在播报出来一样。这就需要在技术上达到极细致的要求。

而且,同传需要同时实现语音识别、语言理解、机器翻译、语音合成等多个技术模块的高度融合,技术链条复杂。

还有就是,高质量平行语料的匮乏,也制约了模型的训练效果。

真正的同传大模型,需要做到什么?


好在,现在不少AI同传产品,开始尝试解决这些问题,一些还取得了不错的效果。

在国外,诸如Zoom自带的AI Companion和Zoom Interpretation这类实时翻译与同传工具,能够很好地服务于专业会议及网络研讨会。

不过,尽管它支持多种主流语言,集成度出色,非常适合商务场合使用,但翻译质量尚有提升空间,且价格偏高,部分高级功能还需通过付费订阅来解锁。

Microsoft Teams,也可以通过集成Azure的语音识别和翻译服务,从而实现多语种的字幕和翻译,能支持70+种语言。

它的翻译倒是很流畅,然而缺点也很明显:设置复杂,需要一定的技术集成能力,这就大大提升了门槛,不适合亟需翻译场景的小白用户。

谷歌家当然也少不了类似产品。

比如Google Meet内置字幕功能+自定义集成Google Translate,就能实现AI同传。

这个产品的特点是延迟低,非常适合教育和远程协作。然而它的翻译精度严重依赖语境,在专业术语的翻译上时常出现翻车的情况。

在国内,许多AI同传产品完全不输外国AI。

其中,作为WAIC 2025的唯一合作伙伴,科大讯飞在AI同传领域尤为引人注目。

纵观市场上的主流AI同传产品,竞争的焦点普遍集中在延迟、专业术语准确度、多语言支持以及语音效果等关键指标上。

在这些方面,讯飞星火语音同传大模型均表现出色。

以往很多传统的同传大模型,基本上采取传统的「语音识别+文本翻译+语音合成」串联模式,上文所提到的种种弊病,都难以打破。

然而所有这些「魔咒」,却都被科大讯飞的星火语音同传大模型克服了。

该模型基于机器学习(ML)和大规模语言模型技术,实现端到端语音实时翻译。

基于星火X1底座,其在四大维度——翻译效果、响应时间、专业覆盖、语音品质上,呈现出系统性领先优势,而非单点技术突破。

它模拟了人类译员思维链路,通过智能意群切分、上下文精准选词和碎片化信息重组,实现了无缝的跨语言实时交流。

在实时性、准确性和专业性上,它在行业内都做到了最优,如母语般丝滑交流。

在保证翻译质量的同时,模型实现了2秒极致响应,达到人类顶尖同传译员的水平。

全新升级的语音同传大模型,针对医疗、制造业、金融等高壁垒专业领域深度优化,覆盖了超8万个专业词汇。

实测显示,专业内容翻译得分超90分,业内率先达到「可用」标准。

此外,其智能双语识别功能,在中英文混合发言的情况下,也能自动切换翻译方向。

要知道,真正的同传大模型,绝不能仅仅是翻译工具,而是一种交流方式的彻底革命。

在这次Hinton演讲的同传任务中,星火语音同传大模型的表现,实在可以称得上是国民级AI同传的水平,在全世界观众面前都十分拿得出手。

比如,当Hinton讲到关于同一个词语意义的两种不同理论时,大模型在屏幕右侧迅速给出了正确通顺的翻译——

「为了捕捉意义,我们需要一种类似关系图的东西,心理学家曾相信一种截然不同的理论,即一个词的意义只是一大堆语义和句法特征」

这种学术性和专业性非常高的知识,大模型能够即时给出足够精准的翻译,能力可见一斑。

可以说,当竞品还在苦苦追赶「能用」的水平时,星火已经狂飙到「好用」的境界,堪称AI同传界的「卷王」。


国内首个同传大模型

讯飞何以快人一步?


要说现在国内做语音同传最牛的,讯飞可真是独一档的存在,其他家还没有谁能跟上这个节奏。

而这个成就,可不是一夜之间取得的。可以说,讯飞的硬核实力,靠的是20多年来在语音技术领域的「死磕」。

早在2010年,这家公司就All in深度学习搭上AI快车,成为了全球最早一批搞机器学习的玩家。

一年后,其自研的基于深度神经网络「中文语音识别系统」正式上线,直接把行业甩在了身后。

这些都为后来的技术演进埋下了关键伏笔。

此后数年,讯飞在技术和应用上双线狂飙,拿奖拿到手软——

2018年,讯飞机器翻译口译能力首次拿下了CATTI翻译资格考试;2019年,其机器阅读理解能力,在全球首次超越人类平均水平。

在语音识别上,2016-2023年,讯飞连获国际多通道语音分离和识别大赛CHiME五连冠;在多语种翻译上,又在2021-2023年连续三届拿下IWSLT冠军。

如今星火大模型的快速迭代,直接把科大讯飞的技术底盘又往上拉了一层。

WAIC上,星火X1基于全国产算力平台「飞星一号」,采用端到端架构,直接把传统「语音识别-翻译-语音合成」三步流程简化成一步,极大提升效率、降低延迟。

这也就是为什么,我们能看到Hinton说话和字幕的出现做到了神同步。

而且,基于X1的多语言能力,星火同传大模型不仅能「听懂」复杂语境,还能精准捕捉语义、语调和专业术语,全场丝滑无压力。

而这背后,都是讯飞多年来广泛积累的数据在做支撑——他们已经为全球超过40万场国际会议做过同传,数据维度广,最不缺的就是覆盖多语种、多场景的真实语料,堪称行业翘楚。

更不要说,讯飞的开放平台上,还拥有广大的52万海外开发者。这就让数据池源源不断,生态持续壮大。

总之,讯飞实打实地经历了一场场真金白银的考验——从北京冬奥会、进博会,再到联合国会议,无论是多么高规格的国际场合,它的AI同传技术都能carry全场,在每一次实战中都获得了满场称赞。

可以说,讯飞能在全球的AI同传领域稳站C位,靠的就是一步步打出来的技术和经验。

而现在国内首个同传大模型的发布,更是代表着全新的里程碑。不仅讯飞交出了漂亮的成绩单,在全球赛道上冲到了最前排,也让人类的「语言无障碍」变得越来越近了。


软硬一体,用「服务闭环」征服WAIC


WAIC上,讯飞不仅以技术实力霸屏会场,更通过「软硬一体」的战略,完美适配了国际会议的复杂场景。

这一现象背后,折射出AI同传技术的新趋势以及市场竞争的新格局。

当前来看,AI同传市场早已从单一技术输出,转向了生态的竞争。一些单一技术提供商或纯软件方案,往往在复杂场景下适配性不足。

讯飞软硬一体战略,并非是简单的产品堆叠,而是以星火「全家桶」为核心,通过硬件协作持续放大的技术能力。

举个栗子,首款搭载离线LLM翻译设备「讯飞双屏翻译机2.0」,能精准分离多方发言,自动切换翻译方向,延迟率非常低。

WAIC展览馆中,一位来自泰国Omniscien公司的CTO Dion Wiggins对讯飞的多语种透明屏技术赞不绝口。

不仅如此,AI同传的竞争已从算法精度转向了场景适配能力,而硬件是实现这一跃迁的关键。

相较于纯软件方案,讯飞翻译硬件通过场景化设计,能够直接触达用户需求。

WAIC现场3款新系列的讯飞AI录音笔的首秀,分别针对学生、职场人、商务人士提供了定制化需求,并覆盖了课堂、办公等多种场景。

还有讯飞同传和同传耳机的协作,进一步放大了星火大模型的能力。

WAIC参会者通过耳机收听AI合成的语音,再结合屏幕的实时字幕,即能体验「听译同步」的沉浸式沟通。

更重要的是,讯飞的软硬件协作逻辑,不仅在于单一设备的突破,更在于多设备的协同,形成了覆盖WAIC全场景的「服务闭环」。

在大会的翻译服务点,讯飞还提供了现场租借的翻译机,让参会者即拿即用,与全球同行无障碍交流。

这届WAIC大会,涵盖了开幕式、3场主论坛,以及19场分论坛,涉及到多语言、多场景的并发需求。

讯飞同传通过大屏幕实时呈现多语种字幕,为开幕式和分论坛的顺利沟通提供了保障。

这种从前端硬件到后端服务的闭环能力,恰恰体现了讯飞对国际会议场景的深刻洞察,也彰显了其硬件赋能在提升服务效率上的核心价值。

当然了,能成为国际会议翻译唯一合作伙伴,不仅要技术和服务过硬,还需强大的品牌背书。

如上所述,从2018年首届WAIC开始,讯飞就承包了翻译重任,为各路AI大牛们「搭桥」。

如今,讯飞凭借其「全栈式」AI同传解决方案,构建了「软件+硬件+服务」三位一体的核心竞争力,以技术突破与生态协同重塑行业标准。

放眼未来,AI同传在教育、旅游、医疗等领域进一步渗透,硬件赋能将成为技术落地的关键驱动力。

讯飞将带领行业打破语言壁垒,登上「巴别塔」之巅,让全球沟通更加高效、自然。

新智元

新智元

145 文章 18701 浏览次数 69870 粉丝

评论 (0)

睡觉动画