Character AI联合耶鲁大学发布Ovi:实现音画同步的视频生成模型
2025年11月14日 10:53
本文共计370个字,预计阅读时长2分钟。
来源/互联网
责编/爱力方
Character AI与耶鲁大学研究团队发布了开源项目Ovi。这项音画同步视频生成技术重新定义了多媒体内容的创作边界。
双骨干交叉模态融合架构将音频与视频置于同等地位。两个模态在扩散过程中持续交换信息。传统流程中先后生成的模式被彻底颠覆。

两个功能对称的分支采用相同的扩散变换器架构。音频流与视频流在潜在空间直接交互。参数共享机制消除了冗余计算。嘴唇运动与声波振动的对应关系通过实时对齐实现。

旋转位置嵌入技术解决了时序对齐难题。数学缩放公式使音视频时间步长达成精确映射。统一的文本提示策略同时引导两个模态的生成方向。
训练数据经过多层筛选与增强处理。音视频对数据集与纯音频库形成互补。数据管道的严谨设计反映在生成样本的保真度上。
github:https://github.com/character-ai/Ovi 开源协议允许开发者访问完整代码库。
声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。