Kling 2.6即将发布:原生音频与1080P高清视频,AI视频迈入有声时代
爱力方
在AI视频生成的这场全球“军备竞赛”中,那块长期以来,一直缺失的、也是最关键的“最后一块拼图”——声音——正被中国的短视频巨头快手,以一种原生的、深度集成的方式,悍然地,补全。
近日,在其“Omni生态周”的首日,快手旗下的Kling AI,正式发布了其最新的2.6版本。
这并非又一次在生成时长或视频分辨率上的线性提升。
它是一次深刻的、旨在将AI视频,从一个只能进行无声表达的“默片时代”,历史性地,推向一个,能够实现“音画同步、一键闭环”的、真正的“有声电影”新纪元的范式革命。
其官方,为此,打出的口号,也极具昭示意义:
“See the Sound, Hear the Visual”——看见声音,听见视觉。
Kling 2.6的核心武器,是其首次,在模型内部,原生集成的音频生成能力。
在过去,即便是使用最顶级的AI视频模型,用户,所能得到的,也仅仅是一段高质量的“无声画面”。他们,仍然需要,在后续的、繁琐的后期制作流程中,去手动地,为其,添加对白、音效和背景音乐。
而现在,Kling 2.6,则试图,将这个割裂的、耗时的流程,彻底地,进行“一键式”的整合。
它,不仅能够,根据用户的文本提示,生成视频画面,更能同时地、同步地,为其,生成与之匹配的、完整的声景:
-
中英双语的、发音清晰的对白。
-
符合情绪和节奏的、可被演唱的歌声。
-
以及,与画面中的动作和环境,高度匹配的背景音效。
这种“文本 ⇄ 视频 ⇄ 音频”的、完整的、端到端的一键闭环,第一次,让AI,拥有了成为一个真正的“制片人”的潜力。
而为了支撑这种“音画同步”的复杂能力,Kling 2.6,也在其底层的技术架构和核心性能上,进行了全面的、系统性的提升。
-
技术架构: 其底层的“扩散变换器 + 3D时空联合注意力”架构,得到了进一步的优化。
-
性能提升:
-
其对复杂的、包含了多个元素和动作的指令的遵守率,相比于前代,提升了15%。
-
其在多个连续镜头之间,保持角色形象一致性的能力,达到了SOTA(State-of-the-Art,即当前最佳水平)。
-
而在与另一款新兴的、同样主打音画同步的Seedance 1.0模型的、第三方的匿名“盲测”中,其胜率,高达285%。
-
在保持了10秒1080P高清输出这一核心技术规格的同时,其商业化的成本,也得到了进一步的优化:
-
现在,生成一段5秒钟的视频,其所需的积分,仅为25分——相比于其前代版本,价格,降低了30%。
在商业化落地的路径上,Kling 2.6,也展现出了清晰的、面向专业级市场的野心。
官方宣布,该模型,将率先地,在像Artlist这样的、全球领先的、面向专业创作者的数字资产平台上,进行上线。
它,将通过API接口,为这些平台,提供包括场景的无限扩展、多元素的实时编辑等在内的、更为强大的、企业级的功能。
其瞄准的,正是影视制作、短剧生产、商业广告以及MV(音乐视频)制作这些,对“音画同步”和“可控性”,有着最刚性需求的、高价值的商业场景。
快手方面,更是进一步地,透露了其更为宏大的“技术路线图”:
-
2026年第一季度,将正式推出,支持4K分辨率 / 60fps帧率的、更高规格的专业版本。
-
并同时,开放自定义的声线库,允许用户,去克隆和使用自己,或获得授权的声音,来为AI视频,进行配音。
AIbase的分析认为,Kling 2.6的这次“有声”革命,其意义,已远超一次简单的功能升级。
它,深刻地,揭示了全球AI视频生成赛道,下一个阶段的、最核心的“竞争焦点”的转移。
当“画面”的生成,日益变得同质化时,谁,能率先地,在“声音”这个全新的、也更具挑战性的维度上,建立起自己的技术壁垒,谁,就将在这场竞赛的下半场,赢得决定性的、差异化的竞争优势。
“声音”,正在补齐AI视频,那最后一块、也是最关键的一块“短板”。
据行业专家估算,一个原生的、音画同步的AI视频工作流,有望,将传统视频的后期剪辑流程,缩短50%以上。
而随着Kling 2.6的正式落地,一个由AI驱动的、有声短视频的、全新的“内容供给大爆发”时代,或许,才刚刚,拉开其真正的序幕。