你的“AI剪辑师”上线了!字节跳动Vidi2模型:一句话搞定视频编辑,零门槛出大片

你的“AI剪辑师”上线了!字节跳动Vidi2模型:一句话搞定视频编辑,零门槛出大片

爱力方

爱力方

2025年12月01日 11:58
本文共计1647个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

人工智能(AI)的这场全球竞赛中,一个长期以来,被视为“圣杯”级的、也可能是最具商业价值的核心战场——长视频的深度理解——正被字节跳动,以一种近乎于“降维打击”的方式,悍然攻破。

该公司刚刚,正式发布了其最新的、专为视频理解而打造的多模态大语言模型——Vidi2

这并非又一个停留在“生成几秒钟趣味片段”的玩具级模型。

QQ20251201-094610.png

Vidi2,是一个拥有120亿参数的、能够一次性地,处理数小时长的原始视频素材、深刻地,理解其中复杂的故事情节脉络,并最终,根据一句简单的文本提示,自动地,为其生成一段结构完整、节奏精妙的TikTok风格短视频,或一部电影的精彩预告片的“专业级AI剪辑手”。

Vidi2的核心武器,是其在视频理解能力上,一次关键的、被称为“精细时空定位”(Spatio-Temporal Grounding, STG)的技术突破。

在过去,AI对视频的理解,是“粗颗粒”的。它,或许能告诉你,这段视频,“大概”是关于什么的。

而现在,Vidi2,则拥有了一种“像素级”和“秒级”的、极其精细的理解能力。

当给定一个文本查询时(例如,“找出这段视频中,所有主角举起咖啡杯的瞬间”),Vidi2,不仅能够,精准地,定位到这些瞬间,所发生的时间戳;更能在这些时间范围内,以边界框的形式,准确地,标记出“主角”和“咖啡杯”这两个具体物体的位置。

这种能力,使得对视频的、真正意义上的、语义级别的、自动化的编辑,第一次,成为了可能。例如,在一段拥挤的人群镜头中,你可以让AI,自动地,全程地,跟踪和聚焦于某一个特定的人物。

这场“理解力”革命的背后,是其技术架构的全面升级。

Vidi2,将其底层的“大脑”,升级为了谷歌最新的、强大的Gemma-3作为其主干网络。并辅以一种,由字节跳动自研的、重新设计的“自适应标记压缩”技术,以确保其在处理超长视频时,既能保持极高的计算效率,又不会丢失那些决定故事走向的关键细节。

在多个行业公认的权威基准测试中,Vidi2,也以一种“碾压式”的姿态,证明了其卓越的性能。

在用于开放式时间检索的VUE-TR-V2基准上,其在超长视频(超过1小时)的理解任务上的表现,比目前最强的商业闭源模型,还要领先17.5个百分点

而比其技术上的领先,更令整个行业,感到“不寒而栗”的,是字节跳-动,那无与伦比的、将前沿技术,迅速地、大规模地,转化为产品的工程化能力

基于Vidi2的强大能力,字节跳-动,已经开发出了一系列,可以直接在消费级硬件上,流畅运行的、实用的自动化编辑工具。

包括:

  • 高光时刻的自动提取。

  • 基于故事脉络感知的、智能的剪切。

  • 基于画面主体的内容感知型重构图。

  • 以及,在多机位素材中的、自动的多视角切换。

而其中的部分技术,据称,已经应用于其王牌产品TikTokSmart Split功能之中。该功能,能够自动地,将用户上传的长视频,进行剪辑、重构图、添加字幕,并最终,转化为更适合在TikTok上传播的、快节奏的短视频片段。

AIbase的分析认为,Vidi2的发布,其意义,已远超一次单纯的技术突破。

它更像是一次深刻的“生态位打击”。

字节跳动,凭借其旗下,拥有超过10亿日活用户的、全球最大的视频内容平台TikTok,拥有了一个任何其他“纯AI技术公司”(无论是OpenAI,还是Google),都无法比拟的、绝对的、结构性的优势:

一个近乎于“无限”的、可以为其AI模型,提供海量、多样、且带有实时用户反馈的视频数据的、完美的“训练场”和“试验田”。

当这个由“海量数据 → 模型迭代 → 产品应用 → 用户反馈 → 更多数据”所构成的、强大的“技术飞轮”,开始高速地,运转起来时,那些,缺乏自有内容平台和海量用户基础的、传统的AI公司,其所面临的竞争压力,将是巨大的、甚至是致命的。

目前,Vidi2,仍处于研究阶段。但其官方,已表示,相关的Demo,即将发布。

而对于全球所有以视频剪辑和后期制作为生的创意工作者而言,一个由AI定义的、全新的、也可能是更残酷的“剪辑时代”,其大门,正被字节跳动,悍然推开。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯