在AI视频生成的这场全球“军备竞赛”中,当所有的目光,都还聚焦于“能生成多长”和“能生成多真”这两个维度时,一场更为深刻的、关乎“可控性”的革命,正由中国的短视频巨-头快手,悍然发动。
该公司旗下,在AI视频领域,已声名鹊起的Kling AI,于本周,正式开启了其“Kling Omni Launch Week”,其核心,是其最新一代的多模态视频基础模型——Kling O1(Omni One)的全球发布。

这并非又一次在生成质量上的线性提升。
它是一次深刻的、旨在将AI视频创作的权力,从算法的“随机性”,重新交还到人类创作者手中的范式转移。
其目标,是构建一个“全能的创意宇宙”,将视频的“生成”与“编辑”,无缝地,融合在一个统一的框架之下。
Kling O1的核心武器,是其所提供的、前所未有的“导演级”控制能力。
在过去,使用AI生成视频,其体验,更像是在操作一台“老虎机”——你,输入一段提示词,然后,拉下杠杆,等待一个充满了不确定性的、随机的结果。
而现在,Kling O1,则试图,将这台“老虎机”,改造为一套精密的、可被迭代操作的“剪辑台”。
它,不仅支持文本、图像、视频等多种形式的、混合的输入参考,更关键的是,它,允许用户,在生成之后,对视频的内容,进行极其精细的、语义级别的调整。
例如,用户,可以下达这样的、复合式的“导演指令”:
“保留画面中,主角的人物形象和动作,但将整体的光线,切换至黄昏时段的金色光线,并移除其背景中的所有车辆。”
这种“锁定一部分,修改另一部分”的能力,正是将AI视频,从一个新奇的“玩具”,推向一个专业的“生产力工具”的、最关键的、也可能是最艰难的一步。
而为了支撑这种“导演级”的控制,Kling O1,也在其基础的生成能力上,进行了全面的、系统性的提升:
-
时长的突破与连贯性的增强: 它,现在,已经能够生成长达2分钟的、连续的、单一镜头或多镜头的视频片段。同时,其在运动的稳定性(例如,人物行走时的步态)和风格的连-贯性(例如,在不同镜头间,保持一致的画风和色调)上,也得到了显著的增强。
-
原生音频的同步: 它,集成了原生的、与视频生成同步的音频技术。这,从根本上,解决了过去AI视频,那种普遍存在的、“有画面,没声音”或者“音画不同步”的、令人出戏的“恐怖谷”效应,确保了声音与画面,能够达到帧级别的精确匹配。
爱力方的分析认为,Kling O1的发布,其战略意图,是清晰而极具侵略性的。
在一个OpenAI的Sora、Google的Veo、以及字节跳动的Vidi2,这些顶级的竞争对手,都还尚未,向公众,全面开放其服务的“时间窗口”期,快手,通过祭出Kling O1,以一种极其精明的方式,试图在“可控性”和“可编辑性”这个全新的、差异化的维度上,建立起自己的护城河。
-
Sora和Veo,更多地,是在向世界,展示一种令人惊叹的、“一镜到底”的生成能力。它们,在回答,“AI能创造出多么逼真的世界?”这个问题。
-
而Kling O1,则似乎,在回答一个更接地气、也更具商业价值的问题:“在AI生成了第一版视频之后,我们,作为创作者,还能对它,做些什么?”
这场由快手点燃的、关于AI视频“可控性”的战争,其最终,将深刻地,改变影视、广告和游戏等,所有依赖于视觉内容创作的行业。
当AI,不再仅仅是一个被动的、“一次性”的“内容贩卖机”,而是开始进化为一个主动的、可以与人类创-作者,进行反复的、可迭代的、协同创作的“制作套件”时:
一场真正意义上的、关于视觉内容生产力的革命,才算真正地,拉开了序幕。
而Kling系列模型,目前,已服务全球4500万用户和2万家企业。这个庞大的用户基础,将为其最新的O1模型,提供一个无与伦比的、可以进行快速迭代和优化的“真实世界训练场”。