具身智能的终极目标是构建能够在复杂现实世界中自主推理并完成各类高难度任务的智能体。从办公楼内的包裹配送、医院中的物资运输,到家庭里的多步家务,许多关键应用本质上都属于长时程、建筑级任务。这类任务不仅要求智能体具备导航、物体操作等底层技能,更需要强大的长时程空间规划、推理与记忆能力。
然而,当前具身智能领域的研究面临着严重的环境资源瓶颈。首先,现有具身智能基准测试大多局限于单层室内环境,无法反映真实世界中机器人任务的多楼层、长时程特性。尽管真实世界扫描数据集能提供高保真几何结构与纹理,但其采集成本高昂,且难以根据任务需求进行后续编辑与重构。
在合成环境生成方面,通过程序化生成或大语言模型驱动的生成方法,大多聚焦于单层房间或公寓级布局,很少显式建模垂直结构、楼层间通道,或电梯、楼梯等通行设施。户型图生成领域的现有方法虽然能在单层住宅场景中表现出色,但普遍存在两大核心缺陷:一是缺乏垂直一致性,无法在不同楼层间对齐外部轮廓或关键垂直核心结构;二是其数据驱动的特性使其局限于“封闭世界”的住宅数据集,难以泛化到医院、超市、办公楼等功能性非住宅场景。
更为关键的是,现有的具身任务基准测试过于简化,仅孤立关注局部近距离操作或基础空间连通性下的导航,缺少对门、电梯等建筑结构交互的建模。因此,这类基准无法体现真实多层建筑中的核心挑战,包括跨楼层移动、结构交互,以及长时程规划与记忆的联合需求。缺乏可扩展、易重构、建筑级的仿真环境,已成为制约具身智能发展的关键瓶颈,直接限制了以空间推理为核心的长时程具身任务研究。
针对上述挑战,近日,由智元机器人牵头,联合清华大学、麦吉尔大学共同提出了MANSION——一个面向建筑级环境生成与长时程任务评测的语言驱动框架(论文入选 CVPR 2026)。该框架构建了大规模场景生态系统,为具身智能在复杂现实环境中的落地打造了关键“数字试验场”。同时,研究团队基于该框架发布了 MansionWorld 数据集及配套的具身智能评测生态系统。
MANSION: 面向长时程任务的多层级语言到 3D 场景生成
一、 MANSION基础框架
MANSION是一个分层多智能体框架,能够将自然语言描述的建筑需求逐步转化为可交互的多层3D场景。该框架的核心创新在于将垂直对齐作为首要硬约束,通过多模态大语言模型驱动的混合架构,将高层语义与低层几何解耦,实现了真正的开放世界可扩展性,无需新增数据或重新训练即可生成多样化建筑类型。
MANSION 框架概览
备注:一个由多智能体驱动的管线,用于从自然语言生成多层3D 建筑。该过程包含以下步骤:(A) 整栋建筑规划、(B) 单层规划、(C) 户型图合成、(D) 场景实例化
在户型图生成环节,MANSION采用分层分割策略以避免一次性确定所有房间位置所带来的高组合复杂度。从气泡图中的交通枢纽节点开始,切割多模态大语言模型在每一步从当前拓扑前沿中选择有效子房间,并在父区域内给出局部种子点。随后,单次切割求解器将该种子点与目标面积作为先验,在父区域内生成分割候选,过滤掉违反已确定拓扑关系的方案,通过可解释能量函数对剩余候选排序,接受得分最高的分割结果。这一过程沿拓扑前沿迭代执行,直至当前楼层的所有房间节点均完成分区。
在场景实例化阶段,MANSION采用双层递进式规划设计。建筑级“总设计师”智能体在初始阶段确定全局视觉风格,保证跨楼层一致性;随后,每个楼层规划节点在生成气泡图时附加房间卡片,编码材质偏好、开放类型与细粒度功能需求。在物体摆放方面,MANSION将可达性作为硬性约束,仅保留周围有足够空间、机器人可导航到达的物体;引入基于锚点的分组实现更均匀的空间分布;新增矩阵式与配对式结构关系基元,使教室、图书馆、开放式办公区等非住宅场景中的桌椅、货架可有序排列;采用优先级感知的摆放顺序与质量优先剪枝,优先摆放靠墙与结构化模式的物体,最小化对导航通道的干扰。
二、 MANSION生态系统
基于上述生成框架,MANSION构建了完整的生态系统,包含三大核心组件:大规模建筑级数据集MansionWorld、具备增强智能体跨楼层导航能力的全新楼梯与电梯资源,以及用于在场景中定义无限具身任务的任务语义场景编辑智能体。
1)MansionWorld:大规模建筑级数据集
MansionWorld是一个全新、大规模、多样化且可交互的多层建筑数据集,突破了现有以住宅为主的基准测试,提供了前所未有的建筑类型多样性,覆盖办公楼、医院、学校、超市、娱乐中心等功能性非住宅环境。该数据集包含1000余栋独立建筑,楼层高度从2层到10层不等,房间总数超过10000间,并配套提供将场景几何与语义导出到Blender、NVIDIA Isaac Sim等其他主流平台的工具。
MansionWorld 统计信息:不同楼层数下的功能构成与建筑面积分布
2)基于楼梯与电梯的跨楼层移动
为支持复杂的建筑级任务,MANSION对AI2-THOR仿真器的核心能力进行了扩展,设计并集成了多段楼梯间与功能性电梯两类关键可交互资源,并开发了高层原子技能API封装对应交互逻辑。这些API负责底层的场景间切换管理,在该平台上首次为智能体提供了稳定、无缝的跨楼层导航能力。
3)任务语义场景编辑智能体
该智能体由多模态大语言模型控制器驱动,能够理解高层自然语言指令,并通过一系列受控的工具调用修改场景,以满足任务前置条件。通过“检查-配置”工作流,智能体将高层任务指令转化为序列化的场景编辑操作:首先检查路径连通性,然后确认物体存在性,最后进行物体配置与场景编辑,确保任务可执行。
如下图所示,当用户给出一条复杂的跨楼层任务指令,例如:“我需要一个任务:智能体从1楼大厅出发,在2楼桌子上取一份零食,从2楼冰箱中取一份冷饮,再把它们送到1楼沙发处。”智能体不会立即执行任务,而是先将任务分解为一系列必要的前置条件,并启动“检查 - 配置”工作流 。
任务语义场景编辑智能体的“检查配置” 工作流程
这一设计的核心优势在于极大提升了建筑环境的可复用性,单栋建筑可以动态承载大量由语言定义、可复现的任务,将建筑数据集转化为任务语义实验场。
三、MANSION —— 开启建筑级具身智能研究新范式
MANSION框架实现了从自然语言描述生成多层、建筑级3D环境的完整解决方案。通过语义层级对齐、垂直结构规整的户型图生成技术,MANSION能够确保生成环境的几何合法性与功能合理性,填补了现有场景生成方法在垂直结构建模方面的空白。基于该框架发布的MansionWorld数据集,为具身智能研究提供了首个大规模、多层、可定制主题化的建筑级环境集合。
实验结果表明,MANSION生成的户型图在结构与功能上均具备高度合理性。同时,当前最优具身智能体在MANSION所构建的多层任务环境中性能出现显著下降,这充分证明了该环境作为下一代空间推理与规划研究测试基准的重要价值。MANSION不仅为长时程、跨楼层的具身智能任务研究提供了关键的基础设施支持,更为未来智能体在真实复杂环境中的部署与验证搭建了重要的桥梁。
原文标题 : MANSION —— 破解具身智能环境资源瓶颈,打造建筑级数字试验场