KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

爱力方

爱力方

2025年12月05日 15:55
本文共计1722个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

在AI视频生成的这场、日益白热化的全球“军备竞赛”中,一场更为深刻的、关乎“情感”“表演”的革命,正由中国的短视频巨-头快手,悍然发动。

近日,其旗下的Kling AI(可灵),重磅发布了其最新的数字人模型——Avatar 2.0

image.png

这,并非又一次,在唇形同步(Lip-sync)精度上的线性提升。

它,是一次深刻的、系统性的、旨在将AI数字人,从过去那种,只会僵硬地“对口型”的、毫无生气的“傀儡”,历史性地,进化为一个,能够,根据音乐的旋律和情感,进行自然的、富有感染力的“表演者”范式革命。

其核心的、最具颠覆性的能力,只有一个:

用户,只需输入一张静态的人物照片,和一段最长可达5分钟的、包含了歌唱或对白的音乐音频。

然后,一键即可生成一段,声画完全同步、表情丰富、且肢体动作与节奏完美契合的、完整的“演唱”或“表演”视频。

在生成的视频中,数字人,将不再是“面瘫”。

  • 它,能够,随着旋律的起伏,而自然地,扬起眉毛

  • 它,能够,在歌词的情感转折处,眼神含笑

  • 它,甚至,能够,伴随着音乐的节奏,进行肩膀的耸动身体的起伏

这,标志着,AI的内容创作,正在从过去那种,对“静态”画面的模仿,不可逆转地,跃迁至一个,能够创造“动态叙事”与“情感表达”的全新阶段。

这场“表演”革命的背后,是可灵团队,在其模型架构中,所创新性地,引入的一个被称为“多模态导演模块”(MLLM Director)的全新组件。

这个“AI导演”,其核心的任务,是将用户所输入的、看似零散的三个要素——一张静态的图像、一段动态的音频,和一句可选的文本提示——智能地,编织成一条,连贯的、统一的“故事线”。

其工作流程,精妙而高效:

  1. 从“音频”中,提取“情感”:

    • 系统,会首先,从输入的音频中,提取出其语音的内容、节奏的快慢,以及,最关键的,其内在的“情感轨迹”。例如,当旋律,变得明快时,它,会为后续的表演,注入“兴奋”的情绪;而当进入说唱段落时,它,则会精准地,去同步鼓点的节奏。

  2. 从“图像”中,识别“身份”:

    • 同时,它,会从用户上传的单张照片中,精准地,识别出人物的面部特征、服饰风格,以及其所处的场景元素。

  3. 从“文本”中,接受“指令”:

    • 用户,还可以,通过简单的文本提示,来下达一些“导演指令”,例如,“镜头,请缓慢地,向上移动”,或者,“让他的手臂,随着节奏,进行摆动”。

  4. 最终,生成“蓝图”并“渲染”成片:

    • 最后,这个“AI导演”,会将所有这些信息,进行融合,并通过一个“文本跨注意力层”,将其,注入到底层的视频扩散模型之中,从而,生成一个,全局一致的“蓝图视频”(Blueprint Video),以确保,整段长达5分钟的内容,其节奏、风格和人物身份,都能保持绝对的流畅与统一。

在技术支撑上,为了实现这种,长达数分钟的、高质量的视频的稳定输出,可灵的团队,也构建了一套,极其严谨的“数据筛选”“两阶段生成”的框架。

  • 在数据端: 他们,从海量的、包含了演讲、对话、歌唱等不同场景的语料库中,收集了数千小时的视频。然后,使用专家模型,从嘴部的清晰度、音画的同步率、以及美学的质量等多个维度,进行自动化的筛选。最终,再经由人类的专家,进行复核,从而,获得了数百小时的、极度优质的、可用于训练的“黄金数据集”。

  • 在生成端: 采用了“两阶段”的设计。第一阶段,基于“蓝图视频”,来规划全局的语义和节奏;第二阶段,则提取视频的首帧和尾帧,作为“锚点”,然后,并行地,去生成中间的、所有的子段视频,以确保,在极长的生成过程中,人物的身份一致性和动作的动态连贯性。

爱力方的分析认为,可灵的这次Avatar 2.0的发布,其意义,已远超一次单纯的技术迭代。

它,更深刻地,揭示了,全球AI视频生成赛道,下一个阶段的、最核心的“竞争焦点”的转移。

当“生成更逼真的画面”,日益变得同质化时,谁,能率先地,在“赋予画面以情感和叙事”这个全新的、也更具挑战性的维度上,建立起自己的技术壁垒,谁,就将在这场竞赛的下半场,赢得决定性的、差异化的竞争优势。

而这场,由可灵所点燃的、关于“情感表演”的革命,其最终,将为短视频、电商广告、在线教育,乃至整个的“虚拟偶像”产业,带来何等深刻的、颠覆性的变革,可能才刚刚开始,被我们所真正地认识到。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯