AI热点 1年前 • 296 浏览次数 • 0 评论

上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

发布了 1221 文章

HuggingFace

HuggingFace

0秒前

IT之家 4 月 17 日消息，据上海人工智能实验室官方公众号，4 月 16 日，上海人工智能实验室（上海 AI 实验室）升级并开源了通用多模态大模型书生・万象 3.0（InternVL3）。

官方介绍，通过采用创新的多模态预训练和后训练方法，InternVL3 多模态基础能力全面提升，在专家级基准测试、多模态性能全面测试中，10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一，同时大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

据介绍，该团队提出了一种创新的原生多模态预训练方法，与传统的先优化大语言模型再添加视觉能力的方法不同，这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合，让模型能够同时学习语言和视觉，从而能够同时处理文本和多模态输入。

除了可以处理通用的多模态任务之外，InternVL3 还拓展了多方面的多模态能力，如图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

据介绍，InternVL3 可作为 GUI 智能体，遵循指令去操作电脑或者手机上的专业软件。

IT之家汇总有关链接如下：

技术报告链接：https://huggingface.co/ papers / 2504.10479
代码开源 / 模型使用方法：https://github.com/ OpenGVLab / InternVL
模型地址：https://huggingface.co/ OpenGVLab / InternVL3-78B
公测版本：https://chat.intern-ai.org.cn/

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

1221 文章 178813 浏览次数 5638 粉丝

评论 (0)

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

7月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

7月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

7月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

7月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

7月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

7月前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

7月前 • AI热点

热门标签

可图2.1 关税政策狗牌 AI知识库 AI协议标准剃须刀发现《The Process》 Perplexity AI驱动的对话平台美的

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注