InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么

InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”，是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环，负责高阶的空间推理与任务规划。模型采用两阶段训练策略，先通过空间感知预训练，增强空间推理与规划能力；再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练，大幅降低成本。在 SimplerEnv 等公开操作基准测试中，InternVLA·M1 达到国际领先水平，其指令跟随与未见物体泛化能力显著优于其他同类模型。依托自研仿真平台 InternData-M1 完成大规模预训练，适用于复杂场景及长程任务。

InternVLA·M1的主要功能

高阶空间推理与任务规划：负责复杂环境下的空间推理和任务规划，能理解指令并生成相应的操作序列。
双系统操作架构：采用两阶段训练策略，先进行空间感知预训练，再进行动作后训练，提升模型的推理和规划能力。
高效训练与成本控制：通过“空间规划提示”实现高效训练，大幅降低训练成本和时间。
指令跟随与泛化能力：在多种公开基准测试中表现优异，尤其在指令跟随和未见物体泛化方面表现突出。
自主学习与闭环控制：构建了“思考-行动-自主学习”的完整闭环，能够通过自主学习不断优化操作策略。
复杂场景适应性：在真机复杂场景及长程任务中表现出色，适用于多种实际应用场景。

InternVLA·M1的技术原理

双系统架构：结合空间感知预训练和动作后训练，增强模型对空间环境的理解和操作能力。
空间感知预训练：通过大规模仿真数据，训练模型对空间关系的感知和推理能力，为后续任务规划奠定基础。
动作后训练：利用隐式空间推理方式，使模型能高效地学习具体动作的执行，提升操作精度。
空间规划提示：引入空间规划提示机制，帮助模型更高效地进行任务规划和动作生成，降低训练复杂度。
闭环控制：构建“思考-行动-自主学习”的闭环系统，使模型能在实际操作中不断学习和优化，适应复杂环境。
大规模仿真数据：依托自研仿真平台 InternData-M1，生成大量高质量的训练数据，支持模型的大规模预训练。
指令驱动：模型能接收自然语言指令，解析指令内容，生成相应的操作序列，实现指令跟随功能。

InternVLA·M1的项目地址

项目官网：https://internrobotics.github.io/internvla-m1.github.io/
Github仓库：https://github.com/InternRobotics/InternVLA-M1
HuggingFace模型库：https://huggingface.co/collections/InternRobotics/internvla-m1-68c96eaebcb5867786ee6cf3
HuggingFace数据链接：https://huggingface.co/datasets/InternRobotics/InternData-M1
技术论文：https://github.com/InternRobotics/InternVLA-M1/blob/InternVLA-M1/assets/InternVLA_M1.pdf

InternVLA·M1的应用场景

工业自动化：在工厂环境中，用于自动化生产线上的复杂任务，如零部件组装、物料搬运和质量检测，提高生产效率和精准度。
物流与仓储：优化物流中心的货物分拣、搬运和存储操作，实现自动化仓库管理，提升物流效率和准确性。
服务机器人：在家庭、酒店、医院等场景中，为人们提供清洁、送餐、护理等服务，提升生活质量和服务效率。
智能安防：用于安防监控中的异常行为检测、区域巡逻和安全检查，增强安防系统的智能化水平。
教育与科研：作为教学和科研工具，帮助学生和研究人员探索机器人技术、人工智能和自动化控制等领域。
灾难救援：在地震、火灾等灾害现场，执行搜索、救援和物资运输任务，减少人员伤亡和提高救援效率。
农业自动化：用于农作物种植、采摘和灌溉等环节，实现农业生产的自动化和智能化，提高农业生产力。

登录账号

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么

InternVLA·M1的主要功能

InternVLA·M1的技术原理

InternVLA·M1的项目地址

InternVLA·M1的应用场景

评分

评论 (0)

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

NavFoM – 银河通用推出的环视导航基座大模型

Handy – 开源的语音转文字桌面应用，完全离线

速抢（2核2G）77元/年香港免备案服务器

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

InternVLA·M1是什么

InternVLA·M1的主要功能

InternVLA·M1的技术原理

InternVLA·M1的项目地址

InternVLA·M1的应用场景

评分

评论 (0)

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

NavFoM – 银河通用推出的环视导航基座大模型

Handy – 开源的语音转文字桌面应用，完全离线

速抢（2核2G）77元/年香港免备案服务器

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐