NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么

NavFoM（Navigation Foundation Model）是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力，可同时适用于室内和室外环境，能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务，如自然语言指令驱动的目标跟随和自主导航，能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核心技术包括TVI Tokens和BATS策略，建立了一个全新的通用范式：“视频流 + 文本指令 → 动作轨迹”，端到端地完成导航全过程。

NavFoM的主要功能

全场景支持：NavFoM能同时支持室内和室外场景，可在未见过的环境中实现零样本运行，无需额外的建图或数据采集，具有很强的环境适应性。
多任务支持：模型支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务，能根据不同的指令完成相应的导航动作。
跨本体适配：NavFoM可快速低成本适配机器狗、轮式人形、腿式人形、无人机、汽车等不同尺寸的异构本体，具有广泛的适用性。
技术创新：NavFoM采用TVI Tokens（Temporal-Viewpoint-Indexed Tokens）让模型理解时间与方向，以及BATS策略（Budget-Aware Token Sampling）让模型在算力受限下依然聪明，通过这些技术创新提升了模型的性能。
统一范式：NavFoM建立了一个全新的通用范式：“视频流 + 文本指令 → 动作轨迹”，不再依赖模块化拼接，而是端到端地完成“看到 — 理解 — 行动”的全过程，简化了导航流程。
数据集构建：NavFoM构建了庞大的跨任务数据集，包含约八百万条跨任务、跨本体的导航数据，以及四百万条开放问答数据，为模型的训练提供了丰富的数据支持。

NavFoM的技术原理

TVI Tokens（Temporal-Viewpoint-Indexed Tokens）：通过时间与视角索引的标记，让模型能理解时间与方向，从而更好地处理动态环境中的导航任务。
BATS策略（Budget-Aware Token Sampling）：在算力受限的情况下，通过预算感知的标记采样策略，确保模型依然能够高效运行，提升其在实际应用中的可行性。
端到端的通用范式：采用“视频流 + 文本指令 → 动作轨迹”的范式，将视觉输入、语言指令和动作输出整合到一个统一的框架中，实现从感知到行动的直接映射。
跨任务数据集：构建了包含约八百万条导航数据和四百万条开放问答数据的庞大跨任务数据集，为模型训练提供了丰富的多场景、多任务数据支持，提升模型的泛化能力。

NavFoM的项目地址

暂未公布相关地址

NavFoM的应用场景

机器人导航：在复杂环境中，如商场、机场等公共场所，机器人可以根据自然语言指令自主导航并跟随目标，实现高效的服务和引导功能。
自动驾驶：应用于汽车的自动驾驶系统，提升车辆在复杂路况下的自主决策和导航能力，增强自动驾驶的安全性和可靠性。
无人机导航：为无人机提供自主导航能力，使其能在复杂地形和环境中进行自主飞行和任务执行，如物流配送、环境监测等。
人形机器人：支持轮式人形、腿式人形等不同形态的人形机器人，使其能更好地适应各种环境，完成复杂的导航和交互任务。
开发应用模型：开发人员可以基于NavFoM作为基座，通过后训练进一步开发满足特定导航要求的应用模型，拓展其在不同领域的应用范围。

登录账号

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么

NavFoM的主要功能

NavFoM的技术原理

NavFoM的项目地址

NavFoM的应用场景

评分

评论 (0)

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

NavFoM – 银河通用推出的环视导航基座大模型

Handy – 开源的语音转文字桌面应用，完全离线

速抢（2核2G）77元/年香港免备案服务器

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM是什么

NavFoM的主要功能

NavFoM的技术原理

NavFoM的项目地址

NavFoM的应用场景

评分

评论 (0)

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

NavFoM – 银河通用推出的环视导航基座大模型

Handy – 开源的语音转文字桌面应用，完全离线

速抢（2核2G）77元/年香港免备案服务器

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐