在AI视频生成的这场全球“军备竞赛”中,一场更为深刻的、关乎“叙事能力”的革命,正由一家来自中国的AI公司——爱诗科技——悍然发动。
该公司近日,正式宣布,其旗下的AI视频大模型PixVerse,已完成至V5.5版本的全量升级,并向所有用户,正式开放体验。
这并非又一次在生成时长或视频分辨率上的线性提升。
它是一次深刻的、旨在将AI视频的生产,从过去那种,只能生成零散的、单一镜头的“素材”的阶段,历史性地,推向一个,能够自动地,生成包含多个镜头、并具备基本起承转合的“完整叙事短片”的全新阶段。

PixVerse V5.5的核心武器,是其在全球范围内,首创并实现的“多镜头 + 音画同步,一键直出”的能力。
在过去,即便是使用最顶级的AI视频模型(如Sora或Kling),用户,所能得到的,也仅仅是一段连续的、单一视角的“画面素材”。
而现在,PixVerse V5.5,则试图,为AI,装上一个“导演的大脑”。
其背后,是该公司自研的MVL(多模态视觉语言)架构。当用户,输入一句简单的、包含了故事性描述的文本提示时,这套架构,便会在5到10秒内,自动地,在后台,完成一系列,过去需要由人类导演、剪辑师和音效师,协同完成的复杂工作:
-
脚本的自动拆解: AI,会自动地,将用户的文本提示,解析为一个包含不同场景和动作的“分镜脚本”。
-
分镜的智能调度: 系统,会根据基本的叙事逻辑,自动地,为这个脚本,匹配一套包含了远景、中景、近景等不同景别的镜头组合,并通过虚拟的运镜,来构建出故事的“起承转合”。
-
音画的同步生成: 更关键的是,它,会为每一个镜头,都同步地,生成与之匹配的对白、环境音效和背景音乐。并且,能够确保,画面中角色的口型,与AI自己生成的语音,保持高度的同频。
其最终,向用户“一键交付”的,将不再是一段需要进行二次剪辑和配音的“原始素材”,而是一个可以直接发布的、声画完整的“初版成片”。
而为了确保,在这套“多镜头”的叙事体系中,故事的核心角色,能够保持其身份的连贯性,爱诗科技,还攻克了另一个行业性的核心痛点——“特征漂移”(Identity Drift)。
“我们自研的‘多视角主体构建技术’,能够确保,故事的主角,在不同的镜头、不同的景别之间进行切换时,其面部的特征、发型和服饰,都能够,保持高度的一致性,”爱诗科技的联合创始人谢旭璋表示。
正是这种对“角色一致性”的坚守,使得其生成的短片,第一次,拥有了真正意义上的、“连续的”叙事可能性。
谢旭璋称,新版本的核心目标,是面向社交媒体的短视频、病毒式的广告创意,以及个人化的Vlog这三大核心场景,让一个完全没有任何视频制作基础的“零门槛用户”,也能够在“十分钟之内,完成一部属于自己的故事短片”。
爱力方的分析认为,PixVerse V5.5的这次重大升级,其战略意图,是清晰而极具侵略性的。
在一个,由Runway的Gen-4.5,刚刚,在“盲测”中,击败了谷歌和OpenAI,证明了“小团队也能实现技术突破”的背景下,爱诗科技,则从另一个、同样至关重要的维度——“叙事自动化”——上,建立了自己独特的、差异化的竞争优势。
-
如果说,Sora和Kling,解决的是,“如何生成一个更长、更逼真的单镜头”的问题。
-
那么,PixVerse V5.5,则试图解决,“如何,将多个镜头,智能地,组织成一个有意义的故事”的问题。
这,是从“画质”的竞争,向“剪辑”和“叙事”的竞争的、一次深刻的“升维”。
目前,PixVerse V5.5,已同步地,登陆了其在国内的“拍我AI”App和Web端。普通用户,可以免费地,领取时长,进行体验。而企业客户,则可以通过API接口,以一种按秒计费的方式,进行接入。
公司透露,其下一步,将是开放3D内容的生成,和更长片幅的叙事能力,并计划,与头部的视频平台,进行合作,推出专门的“AI叙事专区”。
当AI,不仅学会了如何“拍摄”,更开始学会,如何“剪辑”和“讲故事”时,一场真正意义上的、关于视频内容生产的、彻底的民主化革命,才算真正地,拉开了序幕。