AI热点 7小时前 127 浏览次数 0 评论

给 AI“补补课”:微软砸资源抢救欧洲小语种

AI中国
AI中国

发布了 7799 文章

IT之家 7 月 22 日消息,微软在巴黎公布了两项重大举措,旨在保护欧洲语言和文化遗产,并进一步巩固欧洲在人工智能时代的竞争地位。这两项计划是对微软此前“欧洲数字承诺”的延续和升级,该承诺围绕扩展人工智能与云基础设施、强化数据隐私、提升网络韧性,以及支持欧洲整体数字竞争力四大方向展开。新举措的核心目标,是让欧洲语言和文化资产在互联网上更易获取,并在大语言模型(LLMs)中得到更好的体现。

欧洲拥有 200 多种语言,承载着跨越千年的文化积淀,长期以来为创意表达、商业活动、科技创新和跨境贸易提供支撑。然而,随着网络内容越来越以英语为主导,且大多呈现美式视角,欧洲的商业与文化在这种训练数据失衡的背景下面临被边缘化的风险。微软副董事长兼总裁布拉德・史密斯(Brad Smith)指出:“如果人工智能无法理解欧洲的语言、历史与价值观,它就无法真正服务于欧洲的人民、企业和未来。”

据IT之家了解,失衡的数据现状在模型评测中有直观体现。以开源模型 Llama 3.1 为例,其在希腊语上的得分比英语低 15 分以上,在拉脱维亚语上更是低 25 分以上,呈现出典型的“英语顶尖、希腊语中等、拉脱维亚语垫底”的分层现象,这一模式在主流大语言模型基准测试中都有出现。

为扭转这一局面,微软将在法国斯特拉斯堡的创新中心集中专业力量,依托 Microsoft Azure 平台开发和整理多语言数据集。来自微软开放创新中心(MOIC)与 AI for Good Lab 的团队,将与全欧洲的文化机构、学术伙伴及技术企业协作,重点扩充 10 种使用人数较少的欧洲语言的训练数据,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。

与此同时,微软面向公众发布提案征集令,寻找可用于人工智能开发的数字文本、转录稿及其他资料。所有获选项目将获得 Azure 积分,以及工程与技术支援。申请通道将于 2025 年 9 月 1 日在 AI for Good Lab 官网正式上线。

在文化数字化方面,微软宣布今秋将扩展“Culture AI”项目,携手法国文化部与专业遗产数字化机构 Iconem,为拥有 862 年历史的巴黎圣母院打造高精度数字孪生。此前的 Culture AI 已成功完成希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂以及诺曼底盟军登陆海滩的数字化保存。

微软表示,这些新举措建立在该公司 40 余年的本地化经验之上:目前 Windows 已支持 90 多种语言,涵盖欧盟所有官方语言以及巴斯克语、加泰罗尼亚语、加利西亚语、卢森堡语和瓦伦西亚语等地区语言;Microsoft 365 的 Office 界面也提供 30 多种欧洲语言版本。通过把欧洲语言和文化资产深度融入 AI 与云平台,微软既希望守护欧洲大陆的珍贵遗产,也致力于为欧洲企业与公民在数字时代赋能。

微软方面强调,上述行动均以“支持性”角色展开:输出开放数据、工具与专业知识,而非任何专有资产。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI中国

AI中国

7799 文章 1196691 浏览次数 950300 粉丝

评论 (0)

睡觉动画