通义实验室发布PrismAudio:让AI听懂视频实现智能配音告别声画分离

2026年03月24日 16:59
本文共计777个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

在 AI 视频生成大火的当下,“有画无声”或“声不对位”一直是影响沉浸感的最后一道屏障。针对这一痛点,阿里通义实验室近期推出了全新的视频生成音频(Video-to-Audio)框架——PrismAudio。该研究已被顶级 AI 会议 ICLR2026收录,核心旨在为视频自动配上严丝合缝的环境音效。

image.png

先思考再发声:引入“思维链”的配音大师

传统的配音模型通常是“直觉式”生成,容易出现马蹄落在地上却发出鸟叫,或者声音比画面慢半拍的尴尬情况。PrismAudio 的突破在于它学会了“先写笔记,再发声”。

  • 分解式思维链: 模型在生成声音前,会先分析视频内容:画面里有什么?声音何时开始?音质是清脆还是低沉?声源在左还是在右?

  • 四重老师打分: 为了确保质量,研发团队引入了强化学习,由四位“虚拟老师”从语义一致性、时序同步性、美学质量和空间准确性四个维度同时打分。这种多维度的反馈机制,解决了以往模型“顾此失彼”的顽疾。

轻量且高效:9秒视频配音仅需0.6秒

除了听得准,PrismAudio 还跑得极快。得益于自研的 Fast-GRPO 高效训练算法,该模型在性能跨越式提升的同时,保持了极高的运行效率:

  • 小身材大能量: 模型参数仅为5.18亿,远低于动辄数十亿参数的同类模型。

  • 极速响应: 生成一段9秒的高质量音频仅需 0.63秒,几乎做到了“即传即得”。

行业观察:环境音效的“真”时代

PrismAudio 的出现,不仅为影视后期、短视频创作提供了强大的自动化工具,也为多目标生成任务提供了新的思路。当 AI 能够精准权衡声音的质感与空间感,未来的视频创作将真正实现“所见即所闻”。

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

来源:告别“声画两张皮”:通义实验室发布 PrismAudio,让 AI 听懂视频再配音 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/