在AI视频生成的这场全球“军备竞赛”中,战火,已经从“画面”,烧到了“声音”和“动作”。
而中国的短视频巨头快手,正试图,通过其AI视频生成工具Kling的最新一次、堪称“王炸”级的2.6版本升级,在这两个全新的、也更具决定性的战场上,建立起自己的“绝对制空权”。
这次升级的核心,是两大,极具“杀伤力”的革命性功能——语音控制与动作控制。
首先,是语音的革命:从“音效”,到“可被克隆”的“个性化声音”。
Kling 2.6,不仅,像其最主要的竞争对手Google Veo 3和OpenAI Sora 2一样,实现了与视频内容,高度匹配的音效、人声和背景音乐的“同步生成”。

它,更是,向前,迈出了更具颠覆性的一步。
用户,现在,可以,上传一段,属于自己的声音样本,来训练模型;或者,直接地,上传一段,完整的音频文件,并将其,无缝地,应用于全新的文本转视频创作之中。
这意味着,AI视频中的角色,将不再,仅仅是,使用那些,由系统预设的、千篇一律的“通用音色”。
它,将能够,以一种,可被清晰识别的、独一无二的、属于你自己的声音,来进行“说话”或“歌唱”。
“这,从根本上,解决了,在创作系列短剧或多集内容时,‘角色声音一致性’的行业终极痛点。”一位参与内测的创作者向爱力方表示。
Kling AI官方,也展示了一系列,令人惊叹的应用场景——从产品的功能演示、个人的生活方式Vlog,到专业的新闻广播、体育赛事的评论,乃至复调合唱这类,极其复杂的音乐表演。
其次,则是动作的革命:从“模糊”,到“精准”的全身动作捕捉。
Kling 2.6的另一项重大更新,聚焦于其动作控制系统的全面升级。
据官方介绍,系统,现在,能够,更精细地,去捕捉和处理,人类的全身动作,即便是,像高难度的武术套路或节奏极快的街舞这类,充满了快速、复杂运动的场景,也能够,被准确地,进行还原。

该公司,特别强调了,其在两个,传统AI视频生成“重灾区”上的改进:
-
手部动作,现在,显得,精准而清晰,不再有,那种,令人出戏的“模糊”或“畸变”。
-
面部表情,与唇形的同步,也同样,保持了高度的自然与一致。
用户,可以通过,上传一段3到30秒的、包含了特定动作的“参考视频”,来为AI,创建出一段,连贯的、可被循环的动作序列。而场景中的其他细节,则依然,可以通过文本提示,来进行自由的调整。
在商业化层面,Kling 2.6,也展现出了极具竞争力的“价格优势”。
其API的定价,大约,为每秒生成视频0.07至0.14美元——这个价格,在当前的市场上,极具吸引力。
而比其价格,更具“护城河”效应的,是其,背后,那无可匹敌的“数据优势”。
快手,作为全球最大的短视频平台之一,其,与TikTok规模相当的“快手(Kwai)”App,为其,提供了一个,任何“纯AI技术公司”,都无法比拟的、近乎于“无限”的、可以,用来训练其视频模型的海量音视频和运动数据的“金矿”。
这,也正是,其,能够在“声音同步”和“动作逼真”这两个,极度依赖于“真实世界数据”的维度上,取得领先的关键所在。
AI视频的竞赛,已经进入“下半场”。
当“画质”的竞争,日益变得同质化时,谁,能率先地,在“声音”的真实感,与“动作”的可控性上,建立起自己的技术壁垒,谁,就将在这场,关乎“下一代内容创作”霸权的终极战争中,赢得决定性的、也是最有利的身位。
而快手,凭借其,在数据、算法与工程化上的深厚积累,无疑,已经在这条,全新的、也更具挑战性的赛道上,踩下了最坚实的油门。