虚拟偶像的“集体舞”有解了!三校联手推出AI编舞模型,一首歌驱动全场

虚拟偶像的“集体舞”有解了!三校联手推出AI编舞模型,一首歌驱动全场

爱力方

爱力方

2025年11月27日 16:31
本文共计1827个字,预计阅读时长7分钟。
来源/互联网 责编/爱力方

在AI生成舞蹈的这个、充满了奇幻与“魔性”色彩的赛道上,一场深刻的、旨在为虚拟舞者,注入“物理世界灵魂”的技术革命,正悍然上演。

近日,一篇在AAAI 2025上发表、并随后推出重大升级版TCDiff++的研究,正试图,从根本上,去解决那些长期以来,一直困扰着所有AI群舞生成模型的、三大“原罪”级的、顽固的技术痛点。

7eb7fb32bf748544e870b6d3b072beeb.png

痛点一:“幽灵滑步”

  • 你,一定见过那样的、令人出戏的画面:AI生成的舞者,其上半身的动作,看起来,标准而富有表现力;但其双脚,却像是在一块看不见的、光滑的冰面上,进行着诡异的、毫无摩擦力的“幽灵滑步”。

痛点二:“灵魂互换”与“物理穿模”

  • 在常见的群舞数据集中,超过80%的动作,看起来,都几乎一模一样。这,直接导致了AI模型的“脸盲症”。它,根本无法,在长序列的生成中,稳定地,分清和记住,每一个舞者的身份和位置。其结果,便是舞者们,跳着跳着,就发生了“灵魂互换”,或者更糟糕的,直接地,相互碰撞、物理穿模。

痛点三:“长时记忆崩溃”

  • 现有的技术,或许能够,生成几秒钟的、看起来还不错的群舞片段。可一旦,将生成的时长,拉到数分钟的级别,几乎所有的模型,都会不可避免地,出现动作的突变、卡顿,和角色位置的、灾难性的“瞬移”。

71f8c8e7a2d48ac3e73203a4af1770ba.png

论文地址:https://arxiv.org/pdf/2506.18671

项目地址:https://da1yuqin.github.io/TCDiffpp.website/

代码地址:https://github.com/Da1yuqin/TCDiffpp

而TCDiff++,这个由学术界最新推出的、从音乐到舞蹈的端到端生成模型,其核心的创新,正是对上述三大“原罪”,进行的一次系统性的、外科手术式的“精准打击”。

其秘诀,在于其独创的、一个分为两阶段的“解耦式”生成流程:

  1. 第一阶段:“团体舞蹈解码器”(Group Dance Decoder)

    • 这个模块,首先,扮演一个“总导演”的角色。它根据输入的音乐,只专注于生成一套在整体上协调、且能确保舞者之间,不会发生相互碰撞的初步的舞蹈动作序列。

    • 为了实现这一点,它,引入了“舞者定位嵌入”(为每个舞者,编码其在队伍中的相对位置)、“融合投影”(强化对不同舞者动作的辨识能力),以及“全局距离约束”(在全局层面,合理地,约束舞者之间的间距)这三大机制。

      125b713d137ccc220819dcc1497f9dd5.png

  2. 第二阶段:“步法适配器”(Footwork Adaptor)

    • 在“总导演”,完成了整体的队形编排之后,一个专门的“步法教练”,便会介入。

    • 这个模块,只聚焦于一件事:对每一个舞者的脚部轨迹,进行局部的、精细化的物理修正。

    • 它,会利用脚跟、脚趾的触地状态,以及身体重心的速度信息,来针对性地,修正下半身的运动,从而,生成出真正“脚踏实地”的、符合物理世界摩擦力规律的、扎实的脚步动作。

      9558d47c631ce95624bb9e22590d8405.png

最终,系统,再将这个经过了物理修正的、精准的步法,与第一阶段生成的、富有表现力的、整体协调的团体舞姿,进行无缝的融合。

其结果,便是一段舞步稳扎、队形稳定、且舞者之间,再无碰撞的、和谐的群舞序列。

在与现有所有主流模型(包括EDGE、GCD、CoDancers等)的、严格的对比实验中,TCDiff++在几乎所有的、衡量群舞协调性的客观指标上,都取得了持续的、显著的领先。

而在更为考验主观审美的用户调研中,其生成的视觉效果,也获得了最多的、来自真实人类用户的青睐。

爱力方的分析认为,TCDiff++的出现,其意义,已远超一次单纯的、在舞蹈生成领域的算法优化。

它,更像是一次深刻的“哲学宣言”。

它清晰地,向整个AIGC领域,揭示了一个可能更具普适性的、重要的设计原则:

在通往“通用生成”的道路上,我们,或许并不需要,去追求一个无所不能的、大一统的“巨无霸”模型。

一种更为精巧的、模块化的、将“全局的艺术编排”与“局部的物理约束”,进行解耦和协同的“专家系统”思路,可能,才是那条,更高效、也更可控的、通往“真实感”的康庄大道。

尽管,TCDiff++目前,仍处于一个相对基础的“研究版”阶段,其在“多模态交互控制”(例如,用文本指令,去指定舞蹈风格)和对“舞者换位”等复杂队形变换的学习能力上,仍有巨大的提升空间。

但它,无疑,已经为AI舞蹈,乃至更广泛的、所有需要与物理世界规律,进行交互的AIGC应用(例如,具身智能),指明了一个极具启发性的、全新的、关于“如何让AI,学会脚踏实地”的、重要的方向。

参考资料:https://arxiv.org/pdf/2506.18671

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯