研究人员推出LPM1.0模型,实现单图转实时交互式数字人视频

2026年04月14日 11:02
本文共计678个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

近日,研究人员正式发布LPM1.0模型,该研究项目旨在通过单张参考图像实时生成涵盖说话、聆听及唱歌行为的人物视频。LPM1.0的核心突破在于其多模态处理能力,能同步整合文本、音频与图像输入,生成具备精确唇形同步、细腻面部表情及自然情绪过渡的动态画面。该模型支持直接接入ChatGPT、豆包等主流语音AI,从而将传统的语音对话升级为具备视觉反馈的实时交互。

技术层面,LPM1.0引入了“多粒度身份条件化”技术,通过多角度、多表情的参考素材提取细节,无需模型自主生成如牙齿、皱纹或侧面轮廓等复杂特征,显著提升了跨风格处理能力。无论是照片级写实人脸、动漫还是3D游戏角色,皆可实现无需二次训练的即时驱动。此外,该模型支持流式传输技术,在长达45分钟的视频生成中仍能保持系统稳定性。

在交互逻辑上,LPM1.0能够精准识别三种对话状态:聆听时生成点头或目光偏移等反应性表情;说话时由音频驱动肢体与唇动;停顿时则依据文本指令产生自然闲暇行为。项目经理曾爱玲指出,LPM1.0不仅适用于实时对话,亦支持离线音频驱动视频生成,为播客及影视创作提供了技术冗余。

尽管展现出较强的应用潜力,开发团队强调LPM1.0目前仅作为研究项目,暂无公开发布代码或权重的计划。研究人员坦言,生成的视频与真实影像间仍存在定性差距,且技术本身潜藏的深度伪造(Deepfake)风险不容忽视。该项研究的意义在于明确了未来AI系统的演进方向:即从单一的逻辑交互向具备情感响应、眼神交流及视觉具身化的全维度交互形态转变。

来源:研究人员推出LPM1.0模型:实现单图转实时交互式数字人视频 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/