原力灵机发布GeoVLA框架 机器人3D视觉实现突破

原力灵机发布GeoVLA框架 机器人3D视觉实现突破

爱力方

爱力方

2025年12月25日 18:06
本文共计1822个字,预计阅读时长7分钟。
来源/爱力方 责编/爱力方

在通往通用机器人的漫漫征途中,一个幽灵般的障碍始终困扰着前沿的探索者们。尽管我们看到了无数令人惊叹的演示——机器人能识别物体、听懂指令,但当它们真正置身于非结构化的现实世界时,一种深层次的“无能”便会暴露无遗。这并非源于算力不足或语言理解的偏差,而是一种更基础、也更致命的缺陷:空间失明

长期以来,包括OpenVLA、RT-2在内的众多主流VLA(视觉-语言-行动)模型,都在一个“二维囚笼”中理解世界。它们依赖于2D的RGB图像作为唯一的视觉输入,如同一个只能通过照片来认识世界的智慧体。它们能“看懂”照片里的杯子是什么,却无法真正“理解”这个杯子在三维空间中的精确位置、朝向与深度。这种从数字幽灵到物理实体的鸿沟,正是阻碍机器人从实验室走向我们客厅的最后、也是最艰难的一公里。

image.png

原力灵机研究团队近日推出的全新VLA框架——GeoVLA,正是对这场“空间失明症”的一次精准外科手术。它没有试图去无休止地优化那个二维的囚笼,而是另辟蹊径,为机器人开辟了一个全新的感知维度。

双流架构:一场“语义”与“几何”的优雅解耦

GeoVLA的核心逻辑,在于一次优雅的任务解耦:它不再强迫单一的视觉-语言模型(VLM)同时扮演“语义学家”和“几何学家”的双重角色,而是构建了一套创新的双流架构,让专业的人做专业的事。

  • 语义理解流: 这一路依然由强大的、经过海量数据预训练的VLM负责。它的任务是回答“是什么”的问题。当接收到“把那个红色的苹果递给我”的指令时,VLM凭借其强大的图像识别与语言理解能力,精准地锁定画面中的目标物体——“红色的苹果”。

  • 几何感知流: 这是GeoVLA革命性的创举。它引入了专用的点云嵌入网络(PEN)和空间感知动作专家(3DAE)。这一路的数据来源不再是扁平的2D图像,而是由激光雷达或深度相机生成的、包含真实三维信息的“点云”数据。它的任务是回答“在哪里”和“如何做”的问题。它能精确地感知到那个苹果在空间中的坐标、距离、以及它与机器人手臂之间的几何关系。

当这两股数据流汇入最后的动作生成模块时,一场质变发生了。机器人不再是基于一张二维照片的“猜测”去行动,而是基于对三维空间的真实“感知”去决策。它不仅知道要去拿那个苹果,更清楚地知道自己的手臂应该以何种姿态、伸出多长距离、用多大的力气去精准地抓住它。

从仿真到现实:无可辩驳的性能与鲁棒性

理论的优雅,必须由实验的严苛来验证。GeoVLA在一系列基准测试与真实世界实验中,展现了其无可辩驳的优越性。

在被广泛用于评估机器人操作能力的LIBERO基准测试中,GeoVLA的成功率高达97.7%,一举超越了此前所有的SOTA(State-of-the-Art)模型。在ManiSkill2等更为复杂的物理仿真测试中,面对需要精细操作的复杂物体和不断变化的视角,它依然保持了极高的成功率。

image.png

然而,比仿真环境中的高分更令人瞩目的,是GeoVLA在“分布外场景”(Out-of-Distribution)中的强大鲁棒性。

——这才是衡量一个机器人模型能否真正走向实用的黄金标准——

在真实世界中,光照会变化、物体会被轻微移动、背景会充满干扰。实验证明,正因为GeoVLA拥有对三维几何的底层感知能力,它在应对这些不确定性和变化时,表现出远超传统2D模型的适应能力。它不会因为苹果被挪动了几厘米,或是灯光变暗了一些,就彻底迷失方向。

远瞻:当机器人真正睁开双眼看世界

GeoVLA的出现,其意义远不止于发布一个性能更强的模型。它为整个通用机器人领域,指明了一条极具潜力的、摆脱“二维囚笼”的技术路径。

它证明了,在通往真正智能的道路上,我们需要的或许不是一个更大、更全能的单一模型,而是一个懂得协同、懂得将复杂问题分解为不同专业模块去处理的、更聪明的系统架构。

当机器人真正拥有了三维视觉,当它们不再是生活在“平面国”里的数字囚徒,一系列过去被认为遥不可及的应用场景将因此被解锁:

  • 在家庭中,它们能更安全、更可靠地为老人递水喂药,整理凌乱的房间。

  • 在仓库里,它们能更高效地处理堆叠不规则的包裹,适应动态变化的环境。

  • 在更广泛的非结构化环境中,它们将展现出前所未有的自主作业能力。

原力灵机的这项工作,为机器人安上了一双真正能够看懂物理世界的眼睛。而当机器第一次睁开双眼,清晰地看到这个三维世界时,一个属于通用机器人的新纪元,才算真正拉开了序幕。

项目地址:https://linsun449.github.io/GeoVLA/

声明:本文来自爱力方,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯