一个长期存在于机器人领域的设想,正在被一个全新的基础模型变为现实。
这个设想是:能否存在一个通用的“导航大脑”,不依赖于特定的机器人形态或应用场景,能够理解并执行物理世界中的移动指令?
近日,由银河通用联合北京大学、阿德莱德大学等顶尖研究团队共同推出的NavFoM(Navigation Foundation Model),正试图给出肯定的答案。
这不仅仅是一个新的导航算法。它被定义为全球首个“跨本体全域环视”的导航基座大模型,其目标是将截然不同的机器人导航任务——从视觉语言导航、目标导向导航,到视觉追踪乃至自动驾驶——整合到一个统一的框架之下。
NavFoM的核心突破,体现在两个关键的“解耦”上。
首先,是与环境的解耦。
模型具备全场景的零样本(Zero-shot)运行能力。无论是在复杂的室内,还是在开阔的室外,它都能在从未见过的环境中直接开始工作。
这意味着,传统机器人部署前最繁琐、最耗时的一步——环境建图与数据采集——被彻底省略了。
机器人不再需要一份预先绘制的“地图”才能行动。它依靠实时感知和对物理世界规律的泛化理解来导航。这极大地降低了机器人应用的部署门槛和维护成本。

其次,也是更具革命性的一点,是与机器人本体(Ontology)的解耦。
NavFoM的设计,使其能够通过统一的自然语言指令,驱动形态和尺寸迥异的机器人执行任务。
无论是四足机器狗、小型无人机,还是轮式人形机器人乃至自动驾驶汽车,都可以基于这同一个基础模型进行适配和运作。
模型输出的,不再是针对特定电机的控制信号,而是一种更泛化的、关于“下一步该往哪里去”的决策。这种决策可以被翻译给任何具备移动能力的硬件执行。
这标志着,导航智能的核心,正在从与硬件深度绑定的“嵌入式系统”,向一个可被广泛调用的、独立的“基础能力”转变。
为了实现这一目标,NavFoM在技术层面引入了两项关键创新。
第一项是TVI Tokens(Temporal-Viewpoint-Indexed Tokens)。
这是一种全新的信息编码方式,它让模型在处理视觉输入时,不仅知道“看到了什么”,还能理解“在哪个时间点”和“从哪个视角”看到的。
它让模型拥有了时间和方向感——这是导航任务最基本、也最核心的前提。
第二项是BATS策略(Budget-Aware Token Sampling)。
这是一种智能的输入数据采样机制。它允许模型在有限的计算资源下,优先处理对当前决策最关键的视觉信息,从而在确保性能的同时,显著降低算力消耗。
这直接决定了模型能否被实际部署在那些计算能力和功耗都受到严格限制的端侧机器人设备上。

这一切的基石,是一个庞大的跨任务、跨本体导航数据集。
该数据集包含了约800万条导航数据,覆盖了从跟随指令到自主探索的多种任务。此外,还包括400万条开放领域的问答数据,用以增强模型对自然语言和空间语义的深层理解。
据团队披露,这一训练数据量,是以往同类工作的两倍。
NavFoM的发布,为机器人导航领域提供了一个类似GPT-3之于自然语言处理的“基座”。
开发者不再需要为每一个新的导航任务都从零开始训练模型。他们可以基于这个已经具备强大泛化能力的基座模型,通过少量的、针对特定需求的后续训练(Fine-tuning),快速开发出定制化的应用模型。
它没有直接解决某个单一场景的问题,而是试图为所有与“移动”和“空间理解”相关的任务,提供一个统一的、高效率的起点。
当机器人的“大脑”可以与它的“身体”分离,当导航智能可以像一个可调用的API一样普适,整个机器人产业的开发范式和应用边界,都可能因此被重新定义。