字节跳动推出StoryMem技术 解决AI视频角色走样问题

字节跳动推出StoryMem技术 解决AI视频角色走样问题

2026年01月04日 11:24
本文共计812个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。

QQ20260104-095251.png

StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。研究人员指出,将所有场景强行塞入单个模型会导致计算成本激增,而分段生成又会丢失关联。为此,StoryMem 选择性地存储先前场景的关键帧作为参考。该算法利用双重过滤器,先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。在生成新场景时,这些关键帧会配合一种名为 RoPE(旋转位置嵌入)的技术输入模型。通过赋予记忆帧“负时间索引”,系统能引导 AI 将其识别为“过去的事件”,从而确保角色形象和背景细节在故事推进中保持稳定。

QQ20260104-095356.png

值得关注的是,StoryMem 的实现方式极为高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学得分与用户偏好上也全面超越了 HoloCine 等现有前沿技术。

此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。尽管在处理多角色并发及大幅度动作衔接上仍有局限,但团队已在 Hugging Face 开放了权重数据,并上线了项目页面供开发者探索。

地址:https://kevin-thu.github.io/StoryMem/

https://huggingface.co/Kevin-thu/StoryMem

来源:字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯