作者:李鑫 出品:具身智能大讲堂
在机器人灵巧操作领域,如何让机械臂像人类手部一样,通过少量演示就能精准抓取未知物体,一直是兼具价值与挑战的核心课题。传统方案要么依赖海量数据训练导致成本高昂,要么因多视角依赖陷入计算效率困境,而针对多手指灵巧手的少样本学习方案更是寥寥无几。

近日,来自Agility Robotics与慕尼黑工业大学的团队提出了一种名为 LensDFF(Language-enhanced Sparse Feature Distillation)的创新方案,通过语言增强的稀疏特征蒸馏技术,让机器人仅需单视角观测就能实现高灵巧度抓取,同时解决了传统方法的效率瓶颈与视角一致性难题。

阿米奥机器人联合创始人&技术负责人冯骞(注:图片转载2025百度云智大会)
值得关注的的是,该方案的主要作者为阿米奥冯骞,现任阿米奥公司联合创始人&技术负责人,他硕博均就读于德国慕尼黑工业大学,师从机器人泰斗Alois Knoll,曾是思灵机器人早期员工、研究科学家。
阿米奥冯骞团队提出 LensDFF 方案:仅需单视角演示 机器人实现灵巧抓取新突破
观看更多转载,阿米奥冯骞团队提出 LensDFF 方案:仅需单视角演示 机器人实现灵巧抓取新突破具身智能大讲堂已关注分享点赞在看已同步到看一看写下你的评论 视频详情
IROS2025,冯骞也就Deep Learning in Grasping and Manipulation论坛上针对该研究发表主题演讲。目前冯骞团队的相关研究成果已在 arXiv 上发布。
1►三大创新破局!LensDFF 语言增强驱动灵巧抓取
LensDFF 把语言增强和稀疏特征蒸馏深度结合,做出了一套高效的少样本灵巧抓取框架,它的核心创新主要有三方面。

LensDFF 演示数据流程
第一是靠语言增强来对齐特征,专门解决不同视角下语义不一致的问题。
冯骞团队发现,比起视觉特征,语言特征的语义稳定性要强得多,不会因为光照、颜色变化就受影响,而且神经科学研究也证明,人学抓东西这类动作技能时,和学语言之间有很强的关联。
基于这个发现,LensDFF 想出了不用额外训练的语言增强特征对齐办法:先从 CLIP 这类视觉语言模型里提取物体的语言特征,把它当成语义上的 “参照物”;再把不同视角下的 2D 视觉特征投射到语言特征的空间里,用 sigmoid 激活函数做归一化处理。这样既能留住视觉特征本身的幅度信息,又能保证不同视角下的语义是统一的;到了测试的时候,还会用自适应的语言对齐方式,通过算演示时的语言特征和测试时的语言特征之间的余弦相似度,灵活决定是直接用演示的特征,还是把两种特征融合起来,让机器人能顺利应对没见过的物体。
这套设计完全不用依赖额外的特征对齐网络,不用做任何微调就解决了视角不一致的问题,而且对齐特征只需要 70 毫秒。

采用多种抓取原语的演示抓取
第二是用 “抓取原语” 来驱动灵巧操作,为了让多手指灵巧手的能力充分发挥出来,LensDFF 引入了五种核心的抓取原语,分别是钩状抓握、圆柱形抓握、捏取抓握、三脚架抓握和蚓状抓握。
每种原语都对应着特定的物体形态和操作场景,比如捏取抓握适合抓泰迪熊耳朵这种细小或者容易碎的东西,圆柱形抓握能裹住马克杯这类柱状物体,蚓状抓握则适合夹饼干盒这种扁平或者盒状的物体。
在演示阶段,人类专家会给不同的物体选最合适的抓取原语,再通过遥操作做演示;到了测试的时候,系统会根据用户指定的抓取原语,找到最像的演示案例,通过匹配特征生成适合未知物体的灵巧抓握姿势。这种设计能让机器人像人一样,根据物体的特点灵活调整抓法,操作的灵巧度提升了不少。

LensDFF 测试数据流程
第三是打造了 Real2Sim 高效评估流水线,考虑到在真实世界里测试又费时间又费钱,团队专门做了一套从真实场景到仿真环境的快速评估流程:先用 SAM2 模型把目标物体分割出来,再通过 FoundationPose 算出物体的 6D 姿态;接着把物体模型和姿态导入 Isaac Sim 仿真环境,批量执行抓握策略并评估成功率;而且这条流水线还支持并行计算,能同时模拟 50 个机械臂的抓握操作,大大加快了参数调优和算法验证的速度。
2►从仿真到真实!LensDFF 双场景攻克遮挡抓取难题
为了全面检验方案的有效性,团队分别在仿真环境和真实场景中开展了测试,实验所用的平台搭配了 Diana 7 机械臂与 DLR-HIT Hand II 灵巧手,同时配备 RealSense D435 相机负责视觉观测,测试对象覆盖了 12 类 YCB 标准物体,场景还包含轻度遮挡的复杂情况,具体实验结果如下。

仿真中的平均成功率与运行时间
在仿真实验中,针对 12 个 YCB 物体的测试数据显示,LensDFF 的稳定抓取成功率(即物体被抓取后能保持 3 秒以上)达到了 40.8%,这一成绩分别比 SparseDFF(25.0%)和 F3RM(23.9%)高出 15.8 个百分点和 16.9 个百分点;而在瞬时抓取成功率(物体被抓取后能保持 0 秒以上)方面,LensDFF 更是达到了 85.0%,充分展现出它在生成初始抓握姿态上的出色能力。

真实世界中的平均成功率
到了真实世界实验阶段,团队选取了 5 类典型物体进行实地测试,结果显示 LensDFF 的成功率为 64.0%,相比 F3RM(60.0%)高出 4 个百分点,比 SparseDFF(54.0%)高出 10 个百分点。更关键的是,LensDFF 的单次推理时间仅需 13 秒,不仅远低于 F3RM 所需的 5 分钟,还比 SparseDFF 的 16 秒略快,真正实现了性能与效率的双重领先。

不同对齐策略的消融实验

不同演示 / 测试场景表示的消融实验
此外,团队还开展了消融实验以验证各模块的作用:当去除语言特征对齐这一环节后,抓取成功率直接降至 0%,这一结果明确证实了语言增强策略在整个方案中的核心作用;仅使用单视角演示时,成功率为 30.0%,由此可见多视角的稀疏演示能为系统提供更充分的特征信息;而采用多视角测试时,成功率反而下降到 22.5%,这说明在存在遮挡的场景中,单视角下的精准观测比多视角带来的冗余信息更有价值。
3►结语与未来
LensDFF 通过语言增强的稀疏特征蒸馏技术,成功突破了传统少样本灵巧抓取的效率与精度瓶颈,其创新点不仅在于解决了视角一致性这一技术难题,更在于将语言语义与抓取原语深度融合,让机器人的操作更具 “认知能力”。
未来,团队计划探索主动学习策略,让机器人自主选择更具信息量的观测视角,进一步提升对复杂场景与未知物体的适应能力。随着技术的不断迭代,灵巧机器人有望更快地从实验室走向工业生产、家庭服务等真实场景,为人类生活带来更多便利。
项目文章:https://arxiv.org/pdf/2503.03890
项目链接:https://david-s-martinez.github.io/LensDFF/