Kling 2.6即将发布:原生音频与1080P高清视频,AI视频迈入有声时代

爱力方

爱力方

2025年12月03日 16:45
本文共计1642个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

在AI视频生成的这场全球“军备竞赛”中,那块长期以来,一直缺失的、也是最关键的“最后一块拼图”——声音——正被中国的短视频巨头快手,以一种原生的、深度集成的方式,悍然地,补全。

近日,在其“Omni生态周”的首日,快手旗下的Kling AI,正式发布了其最新的2.6版本

这并非又一次在生成时长或视频分辨率上的线性提升。

它是一次深刻的、旨在将AI视频,从一个只能进行无声表达的“默片时代”,历史性地,推向一个,能够实现“音画同步、一键闭环”的、真正的“有声电影”新纪元的范式革命。

其官方,为此,打出的口号,也极具昭示意义:

“See the Sound, Hear the Visual”——看见声音,听见视觉。

Kling 2.6的核心武器,是其首次,在模型内部,原生集成的音频生成能力

在过去,即便是使用最顶级的AI视频模型,用户,所能得到的,也仅仅是一段高质量的“无声画面”。他们,仍然需要,在后续的、繁琐的后期制作流程中,去手动地,为其,添加对白、音效和背景音乐。

而现在,Kling 2.6,则试图,将这个割裂的、耗时的流程,彻底地,进行“一键式”的整合。

它,不仅能够,根据用户的文本提示,生成视频画面,更能同时地、同步地,为其,生成与之匹配的、完整的声景:

  • 中英双语的、发音清晰的对白。

  • 符合情绪和节奏的、可被演唱的歌声。

  • 以及,与画面中的动作和环境,高度匹配的背景音效。

这种“文本 ⇄ 视频 ⇄ 音频”的、完整的、端到端的一键闭环,第一次,让AI,拥有了成为一个真正的“制片人”的潜力。

而为了支撑这种“音画同步”的复杂能力,Kling 2.6,也在其底层的技术架构和核心性能上,进行了全面的、系统性的提升。

  • 技术架构: 其底层的“扩散变换器 + 3D时空联合注意力”架构,得到了进一步的优化。

  • 性能提升:

    • 其对复杂的、包含了多个元素和动作的指令的遵守率,相比于前代,提升了15%

    • 其在多个连续镜头之间,保持角色形象一致性的能力,达到了SOTA(State-of-the-Art,即当前最佳水平)。

    • 而在与另一款新兴的、同样主打音画同步的Seedance 1.0模型的、第三方的匿名“盲测”中,其胜率,高达285%

在保持了10秒1080P高清输出这一核心技术规格的同时,其商业化的成本,也得到了进一步的优化:

  • 现在,生成一段5秒钟的视频,其所需的积分,仅为25分——相比于其前代版本,价格,降低了30%

在商业化落地的路径上,Kling 2.6,也展现出了清晰的、面向专业级市场的野心。

官方宣布,该模型,将率先地,在像Artlist这样的、全球领先的、面向专业创作者的数字资产平台上,进行上线。

它,将通过API接口,为这些平台,提供包括场景的无限扩展、多元素的实时编辑等在内的、更为强大的、企业级的功能。

其瞄准的,正是影视制作、短剧生产、商业广告以及MV(音乐视频)制作这些,对“音画同步”和“可控性”,有着最刚性需求的、高价值的商业场景。

快手方面,更是进一步地,透露了其更为宏大的“技术路线图”:

  • 2026年第一季度,将正式推出,支持4K分辨率 / 60fps帧率的、更高规格的专业版本。

  • 并同时,开放自定义的声线库,允许用户,去克隆和使用自己,或获得授权的声音,来为AI视频,进行配音。

AIbase的分析认为,Kling 2.6的这次“有声”革命,其意义,已远超一次简单的功能升级。

它,深刻地,揭示了全球AI视频生成赛道,下一个阶段的、最核心的“竞争焦点”的转移。

当“画面”的生成,日益变得同质化时,谁,能率先地,在“声音”这个全新的、也更具挑战性的维度上,建立起自己的技术壁垒,谁,就将在这场竞赛的下半场,赢得决定性的、差异化的竞争优势。

“声音”,正在补齐AI视频,那最后一块、也是最关键的一块“短板”。

据行业专家估算,一个原生的、音画同步的AI视频工作流,有望,将传统视频的后期剪辑流程,缩短50%以上

而随着Kling 2.6的正式落地,一个由AI驱动的、有声短视频的、全新的“内容供给大爆发”时代,或许,才刚刚,拉开其真正的序幕。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯