具身智能落地难,根源在于AI无法理解场景

具身智能落地难,根源在于AI无法理解场景

机器人大讲堂

机器人大讲堂

2026年01月09日 15:33
本文共计2084个字,预计阅读时长7分钟。
来源/机器人大讲堂 责编/爱力方

具身智能领域,我们经常会问一个问题:

机器人看到世界,究竟是“看见了”,还是“看懂了”?

同样面对一张复杂场景的图片——

普通人可能只注意到“这是一条繁忙的街道”;

而经验丰富的交通工程师却能迅速识别人流方向、车流冲突点、潜在风险区域。

这种差异,并不是感知能力的不同,而是场景理解深度的不同。

 

这恰恰也是当前多模态模型乃至具身智能系统所面临的核心挑战之一:

模型可以识别物体,却难以理解结构、关系与上下文。

近期,千诀科技研究团队一篇被计算机视觉顶级会议ICCV 2025(CCF A 类)接收的论文《OURO: A Self-Bootstrapped Framework for Enhancing Multimodal Scene Understanding》,给出了一个极具启发性的答案。

一、为什么“场景理解”是具身智能的关键短板?

当前主流的视觉-语言模型,在图像描述、基础问答等任务中已经表现得相当成熟,但一旦进入真实世界,就会暴露出明显不足:

•能识别“桌子、杯子、椅子”

•却难以理解(①物体之间的空间关系、②行为背后的因果逻辑)

根本原因在于:

大多数模型的训练方式,本质上仍停留在“整体描述”层面。

如果训练数据只告诉模型:

“这是一条繁忙的街道”

而没有进一步拆解:

•街道由哪些对象组成?

•对象之间如何相互作用?

•哪些信息是关键,哪些是背景?

那么模型就只能学会“描述”,而无法形成真正的结构化认知。

但人类理解复杂世界,从来不是这样完成的。

二、人类如何理解复杂场景?

人类的认知过程,往往遵循一种天然的策略:

先分解 → 再建模 → 再整合

我们会下意识地:

•关注几个关键对象

•理解它们之间的关系

•在脑中构建一个“场景结构”

这正是 OURO 框架试图教会模型的事情。

三、OURO:一种“自我进化”的场景理解框架

OURO 的名字来源于古老的Ouroboros(衔尾蛇)——象征自我循环、自我更新。

千诀科技这篇论文提出的核心思想非常清晰:

不再依赖大量人工标注,而是让模型“用自己的能力,训练自己”。

1⃣ 从“整体”到“局部”的结构拆解

当模型看到一张图像时,它不会直接给出一句整体描述,而是先将图像拆分为若干关键区域,例如:行人、车辆、标志牌、路口结构。

每个区域都会被单独理解和描述。

2⃣ 从“局部理解”到“层次化结构”

这些局部信息不会孤立存在,而是被组织成一个层次化的场景结构:

•谁在什么位置?

•对象之间是否存在空间或语义关系?

•哪些对象属于同一个子场景?

这一步,相当于让模型构建了一张“场景认知地图”。

3⃣ 自举式学习:自己出题,自己进化

在拥有结构化场景表示后,OURO 会:

•自动生成多角度的问题

•自动生成对应的答案

•再用这些高质量数据反向训练模型

整个过程不依赖额外人工标注,而是一个不断自我强化的闭环。

这也是论文中“Self-Bootstrapped(自举)”的真正含义。

 

四、这对具身智能意味着什么?

对于具身智能而言,OURO 的意义并不局限于“视觉理解性能提升”,更在于它提供了一种接近人类认知方式的训练范式。

1⃣ 从“识别物体”到“理解场景”

在真实世界中,机器人面临的不是单一物体,而是多对象、多关系、强上下文依赖

OURO 展示了一种可能路径:

让机器人学会先构建场景结构,再进行决策与行动。

2⃣ 从“被动执行”到“主动预判”

当模型能够理解:哪些对象是关键的、当前状态可能导致什么后果

机器人就有可能:主动避开风险、提前规划动作、理解人类隐含意图

这正是从“工具型机器人”迈向“智能体”的关键一步。

这个视频诠释了OURO框架带来的交互变革:机器人正从被动执行单一步骤的“机械臂”,进化为能主动理解复杂意图并规划长期任务的智能调度者。

五、实验结果透露出的一个重要信号

千诀科技的这篇论文在多个基准测试中验证了 OURO 的有效性,尤其是在:细粒度理解、结构化推理、多步骤问答

一个很有意思的发现是:

当图像被拆分为大约 5 个关键子区域时,模型表现最佳。

这与人类认知高度一致——

我们并不会同时关注所有细节,而是聚焦于少数最关键的信息节点。

这为未来具身智能中的注意力机制、感知-决策接口设计提供了重要启示。

六、从“看得到”到“看得懂”

OURO 并不是在简单地“堆模型规模”,而是在回答一个更根本的问题:

模型是否学会了正确的思考方式?

千诀科技这篇工作表明,与其一味让模型“变大”,

不如让它:学会拆解问题、学会构建结构、学会在循环中自我完善

对于具身智能而言,这种结构化、层次化、自举式的学习路径,或许正是通向真实世界智能的重要一步。

当普通模型仍停留在“看到画面”时,基于 OURO 思想训练的模型,已经开始尝试理解世界是如何被组织起来的。而这,正是具身智能走向真实落地的前提。

论文链接:

https://openaccess.thecvf.com/content/ICCV2025/papers/Xu_OURO_A_Self-Bootstrapped_Framework_for_Enhancing_Multimodal_Scene_Understanding_ICCV_2025_paper.pdf

来源:具身智能落地难,是因为AI“看不懂”场景? | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯