腾讯发布全新视频生成模型 HunyuanVideo1.5,降低视频创作门槛

腾讯发布全新视频生成模型 HunyuanVideo1.5,降低视频创作门槛

爱力方

爱力方

2025年11月21日 14:30
本文共计1590个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

在AI视频生成的这场“军备竞赛”中,当绝大多数的玩家,都还在“更大模型、更强算力”这条重装甲路线上,进行着激烈的、高成本的缠斗时,一支来自腾讯混元大模型团队的“轻骑兵”,正以一种意想不到的、更为敏捷的姿态,悄然地,突入了战场。

该公司今日,正式发布并宣布全面开源其最新的视频生成模型——HunyuanVideo 1.5

QQ20251121-140604.png

这并非又一次在生成时长或视频分辨率上的暴力拉升。

它是一次深刻的、旨在将AI视频生成,从少数拥有顶级硬件的实验室的“专利”,彻底地,下放到每一个普通开发者和创作者手中的、关于“可用性”“普及化”的精准打击。

这场“轻骑兵”突袭的核心,是HunyuanVideo 1.5,在“性能”“尺寸”之间,所取得的一次精妙的、堪称“工程奇迹”的平衡。

在此之前,视频生成领域的开源SOTA(State-of-the-Art,即当前最先进水平)旗舰模型,其运行的门槛,是令人望而却步的:

  • 其参数量,通常,需要超过20B(200亿)。

  • 其所需要的显卡显存,则需要超过50GB

而HunyuanVideo 1.5,则以一种极具杀伤力的方式,彻底地,打破了这一“算力壁垒”。

  • 它基于当前备受关注的Diffusion Transformer(DiT)架构,但其参数量,被精简到了仅为8.3B(83亿)。

  • 其在本地流畅运行,所需要的最低显存,仅为14GB——这意味着,一张消费级的、主流的游戏显卡,就足以,驱动这个强大的视频生成引擎。

而这种极致的“轻量化”,并未以牺牲其核心的生成能力为代价。

HunyuanVideo 1.5,能够生成5到10秒的、高清的(具体分辨率未披露,但从演示效果看已达商用水平)视频片段。

它支持两种核心的生成方式:

  1. 文本到视频(Text-to-Video): 用户,只需输入一段中英文的文本描述,例如,“一个老式的手提箱,被缓缓打开,其内部,生长出了一个迷你的、充满了鲜花和苔藓的英式花园”,模型,便能精准地,理解并呈现出这一充满了想象力的、动态的过程。

  2. 图像+文本到视频(Image+Text-to-Video): 用户,可以上传一张静态的图片,并配上一段文本,来引导其动态化的方向。模型,能够确保其生成的视频,在色调、光影、场景、主体乃至背景的细节上,都与原始的输入图片,保持高度的一致性。

此外,该模型,还支持在写实、动画等多种不同的风格之间,进行自由的切换,甚至,能够直接地,在生成的视频画面中,渲染出清晰、准确的中英文字幕或标题。

这种“小尺寸、高性能”的实现,其背后,是腾讯混元团队,在技术上的两项关键创新:

  • SSTA稀疏注意力机制: 一种创新的、能够显著提升模型推理效率的注意力算法。

  • 多阶段渐进式训练策略: 一种能够让模型,在运动的连贯性和语义的遵循性这两个关键维度上,达到商用级水平的训练方法。

爱力方的分析认为,Hunyuan-Video 1.5的发布和全面开源,其战略意义,已远超一次简单的产品上新。

它更像是一次深刻的“技术平权”

在一个OpenAI的Sora和Google的Veo,这些“重装甲军团”,仍然尚未向公众,全面开放的“时间窗口”期,腾讯,通过祭出HunyuanVideo 1.5这支“轻骑兵”,以一种极其精明的方式,迅速地,抢占了“开发者生态”和“创作者社区”这个至关重要的战略高地。

QQ20251121-140620.png

当AI视频生成的能力,不再受限于用户,是否拥有昂贵的、专业级的硬件时,一个真正属于全民的、内容大爆发的“视频创作新时代”,才算真正地,拉开了序幕。

目前,这款模型,已在腾讯自家的“元宝”应用平台上,向所有普通用户,开放了体验。

同时,其完整的模型、代码和工具链,也已上传至Hugging Face和GitHub,供全球的开发者,免费下载和使用。

而这场由腾讯点燃的、关于AI视频“普及化”的闪电战,其最终,将为整个内容创作行业,带来何等深刻的、颠覆性的变革,可能才刚刚开始,被我们所真正地认识到。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯