AI助力仿生人脸机器人学会开口说话 网红博主“U航”作品登顶国际期刊封面

AI助力仿生人脸机器人学会开口说话 网红博主“U航”作品登顶国际期刊封面

机器人大讲堂

机器人大讲堂

2026年01月18日 19:55
本文共计2986个字,预计阅读时长10分钟。
来源/机器人大讲堂 责编/爱力方

可能很多人刷到过一位名为“U航”博主(真名:胡宇航)的视频,他研发的仿生机器人视频在各大平台迅速走红,播放量累计过亿。许多网友直呼作品已近乎跨越“恐怖谷”。

2026年1月14日,仿生机器人脸Emo登上《Science Robotics》开年第一期期刊封面,这项成果同样出自胡宇航之手。

 

公开资料显示,这是胡宇航博士在读期间发表的第三篇顶级子刊论文(前两篇分别发表于2024年的《Science Robotics》与2025年的《Nature Machine Intelligence》)。他的研究聚焦于机器人自主学习与自我建模,并由此创立了“首形科技”,相继获得多家顶级投资机构的青睐。 

 

  • Hu, Yuhang, et al. "Human-robot facial coexpression."Science Robotics9.88 (2024): eadi4724.
  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves."Nature Machine Intelligence(2025): 1-11.

 

 

*胡宇航(网名“U航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。

致力于赋予机器人“自我模型”能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情4绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。

从实验室的突破到产业的萌芽,胡宇航与他的首形科技,正将前沿的学术探索推向人形机器人的核心挑战。

▍让人形机器人拥有能张嘴说话的脸

在生成式AI 赋予了机器人“大脑”之后,一个尴尬的物理鸿沟始终存在:我们拥有了能吟诗作赋的 ChatGPT,但承载它的载体——人形机器人,在开口说话时依然像个蹩脚的腹语表演者。

此次胡宇航博士团队在顶级期刊《Science Robotics》上发表最新的封面论文,展示了一种全新的软硬件解决方案:让人形机器人拥有能张嘴说话的脸。

该研究提出了一种基于Facial Action Transformer (FAT)的自监督学习框架,配合高自由度的柔性机械结构,首次实现了机器人唇部运动对任意语音流的“零样本”实时生成。

 

用于机器人唇形同步的FAT 模型架构。该模型采用独特的双路输入设计来保证动作的连贯性:左侧的Transformer 编码器负责“回顾过去”,处理历史时刻的电机指令,从而捕捉动作的时间连贯性;右侧的Transformer 解码器则负责“展望目标”,接收来自 VAE 的视觉特征数据,告诉机器人当下和未来应该呈现什么口型。两者结合后,模型能精准预测出当前所需的电机控制信号。这种架构不仅实现了声音与唇形的高度同步,还有效消除了机械抖动,确保了从一个口型过渡到下一个口型的平滑自然。

中间图:机器人通过摄像头采集进行学习。 

硬件重构:拥有10自由度的嘴

长期以来,机器人面部表情僵硬的核心原因在于机械结构的匮乏。传统的刚性连杆难以模拟人类面部肌肉极其复杂的形变。

该团队摒弃了传统的线驱动结构,设计了一套10个自由度(全脸25-DoF)的专用唇部驱动机制。这套机制被精巧地埋藏在一层可快拆的柔性硅胶“皮肤”之下。多点协同驱动:包括上唇、下唇、嘴角以及下颌。

这种机械设计使得机器人能够物理实现闭唇音(如/p/、/b/)、圆唇音(如/u/)以及复杂的撮唇动作,为算法提供了物理层面的执行基础。

 

机器人面部硬件系统架构。(A) 系统概览与交互组件:展示了集成的扬声器、麦克风及高清摄像头模块。重点在于磁吸式快拆连接器,该机构不仅能精准定位柔性硅胶皮肤,还能传递推拉双向动力,是实现复杂唇形动作的关键。(B) 机器人实体外观:覆盖柔性皮肤后的拟人化形态,其底座内部集成了用于实时处理的边缘计算单元Nvidia Jetson AGX。(C) 唇部驱动机构特写:详示了上唇、下唇及嘴角的连接器布局。通过磁吸接口与支架连接的设计,使得柔性皮肤可以轻松拆卸,便于日常维护或更换个性化面容。

算法核心:从“数字世界”到“物理现实”的跨越

如何让这10 个电机精准配合一段从未听过的音频?研究团队没有采用传统的“基于规则”的编程(即手动写死‘听到A音发B动作’),而是让机器人“自我观察”。

团队构建了一个闭环的自监督学习管线(Self-supervised Learning Pipeline)

1.从虚拟到现实(Sim-to-Real):系统首先利用Wav2Lip 等算法,将音频转化为数字视频(Synthesized Video)。这相当于机器人在脑海中构想“如果我完美说话应该长什么样”,类似今天世界模型(World model),让机器人生成未来的画面。

2.视觉编码(VAE):利用变分自编码器(VAE),将这些视觉图像压缩为高维的“潜变量(Latent Vectors)”。

3.动作生成(Transformer):这是最关键的一步。Facial Action Transformer (FAT) 充当了翻译官,它接收音频信号和视觉潜变量,直接预测出物理电机所需的运动指令。

这一过程不仅不需要人工标注数据,还让机器人具备了自我纠错能力——通过对比摄像头拍摄的自己(Real Robot)和脑海中的完美构想(Synthesized),不断优化电机控制策略。

性能验证:跨越语言的通用性

实验数据显示,该系统的唇形同步误差显著低于传统的音频振幅驱动方法。

更为惊人的是其泛化能力。尽管训练数据有限,但这台机器人展示了惊人的语言适应性。在未针对特定语言进行微调的情况下,它成功实现了包括中文、日语、俄语、希伯来语在内的11 种语言的唇形同步。甚至当输入一段 AI 生成的歌曲时,机器人也能跟随旋律和歌词,生成流畅的演唱动作。这意味着,该系统捕捉到了人类发音与面部肌肉协同的底层物理规律,而非简单的死记硬背。

 

多语言唇形同步性能的量化评估:图中展示了不同语言环境下的同步误差表现。X轴标签下方标注的n值代表每种语言测试样本的视频总帧数。统计结果显示,所有非英语语言的同步误差均未超出英语(基准)的误差范围,不仅验证了模型在不同语音特性下的稳定性,也证实了其具备显著的跨语言泛化能力(Cross-lingual Generalization)。

结语:具身智能的微表情时代

胡宇航博士等人的这项工作,标志着人形机器人正在从“文本自然交互”迈向“丰富情感交互”的新阶段。

当大语言模型解决了“说什么”,这项技术解决了“怎么说”。在未来,随着人形机器人和多模态大模型技术的进一步突破,我们或许将不再只是通过屏幕与游戏角色/电影明星/AI交互。那张在物理世界中生动、细腻、能与你产生眼神与情感共鸣的脸,将成为人机共存时代最标准的情感接口。

来源:机器人国际顶刊封面:用AI教会仿生人脸机器人“开口说话”—— 网红博主“U航”的人脸机器人登上Science Robotics封面 | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯