在AI视频生成的这场、日益白热化的全球“军备竞赛”中,一场更为深刻的、关乎“情感”与“表演”的革命,正由中国的短视频巨-头快手,悍然发动。
近日,其旗下的Kling AI(可灵),重磅发布了其最新的数字人模型——Avatar 2.0。

这,并非又一次,在唇形同步(Lip-sync)精度上的线性提升。
它,是一次深刻的、系统性的、旨在将AI数字人,从过去那种,只会僵硬地“对口型”的、毫无生气的“傀儡”,历史性地,进化为一个,能够,根据音乐的旋律和情感,进行自然的、富有感染力的“表演者”的范式革命。
其核心的、最具颠覆性的能力,只有一个:
用户,只需输入一张静态的人物照片,和一段最长可达5分钟的、包含了歌唱或对白的音乐音频。
然后,一键即可生成一段,声画完全同步、表情丰富、且肢体动作与节奏完美契合的、完整的“演唱”或“表演”视频。
在生成的视频中,数字人,将不再是“面瘫”。
-
它,能够,随着旋律的起伏,而自然地,扬起眉毛。
-
它,能够,在歌词的情感转折处,眼神含笑。
-
它,甚至,能够,伴随着音乐的节奏,进行肩膀的耸动和身体的起伏。
这,标志着,AI的内容创作,正在从过去那种,对“静态”画面的模仿,不可逆转地,跃迁至一个,能够创造“动态叙事”与“情感表达”的全新阶段。
这场“表演”革命的背后,是可灵团队,在其模型架构中,所创新性地,引入的一个被称为“多模态导演模块”(MLLM Director)的全新组件。
这个“AI导演”,其核心的任务,是将用户所输入的、看似零散的三个要素——一张静态的图像、一段动态的音频,和一句可选的文本提示——智能地,编织成一条,连贯的、统一的“故事线”。
其工作流程,精妙而高效:
-
从“音频”中,提取“情感”:
-
系统,会首先,从输入的音频中,提取出其语音的内容、节奏的快慢,以及,最关键的,其内在的“情感轨迹”。例如,当旋律,变得明快时,它,会为后续的表演,注入“兴奋”的情绪;而当进入说唱段落时,它,则会精准地,去同步鼓点的节奏。
-
-
从“图像”中,识别“身份”:
-
同时,它,会从用户上传的单张照片中,精准地,识别出人物的面部特征、服饰风格,以及其所处的场景元素。
-
-
从“文本”中,接受“指令”:
-
用户,还可以,通过简单的文本提示,来下达一些“导演指令”,例如,“镜头,请缓慢地,向上移动”,或者,“让他的手臂,随着节奏,进行摆动”。
-
-
最终,生成“蓝图”并“渲染”成片:
-
最后,这个“AI导演”,会将所有这些信息,进行融合,并通过一个“文本跨注意力层”,将其,注入到底层的视频扩散模型之中,从而,生成一个,全局一致的“蓝图视频”(Blueprint Video),以确保,整段长达5分钟的内容,其节奏、风格和人物身份,都能保持绝对的流畅与统一。
-
在技术支撑上,为了实现这种,长达数分钟的、高质量的视频的稳定输出,可灵的团队,也构建了一套,极其严谨的“数据筛选”与“两阶段生成”的框架。
-
在数据端: 他们,从海量的、包含了演讲、对话、歌唱等不同场景的语料库中,收集了数千小时的视频。然后,使用专家模型,从嘴部的清晰度、音画的同步率、以及美学的质量等多个维度,进行自动化的筛选。最终,再经由人类的专家,进行复核,从而,获得了数百小时的、极度优质的、可用于训练的“黄金数据集”。
-
在生成端: 采用了“两阶段”的设计。第一阶段,基于“蓝图视频”,来规划全局的语义和节奏;第二阶段,则提取视频的首帧和尾帧,作为“锚点”,然后,并行地,去生成中间的、所有的子段视频,以确保,在极长的生成过程中,人物的身份一致性和动作的动态连贯性。
爱力方的分析认为,可灵的这次Avatar 2.0的发布,其意义,已远超一次单纯的技术迭代。
它,更深刻地,揭示了,全球AI视频生成赛道,下一个阶段的、最核心的“竞争焦点”的转移。
当“生成更逼真的画面”,日益变得同质化时,谁,能率先地,在“赋予画面以情感和叙事”这个全新的、也更具挑战性的维度上,建立起自己的技术壁垒,谁,就将在这场竞赛的下半场,赢得决定性的、差异化的竞争优势。
而这场,由可灵所点燃的、关于“情感表演”的革命,其最终,将为短视频、电商广告、在线教育,乃至整个的“虚拟偶像”产业,带来何等深刻的、颠覆性的变革,可能才刚刚开始,被我们所真正地认识到。