针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。

StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。研究人员指出,将所有场景强行塞入单个模型会导致计算成本激增,而分段生成又会丢失关联。为此,StoryMem 选择性地存储先前场景的关键帧作为参考。该算法利用双重过滤器,先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。在生成新场景时,这些关键帧会配合一种名为 RoPE(旋转位置嵌入)的技术输入模型。通过赋予记忆帧“负时间索引”,系统能引导 AI 将其识别为“过去的事件”,从而确保角色形象和背景细节在故事推进中保持稳定。

值得关注的是,StoryMem 的实现方式极为高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学得分与用户偏好上也全面超越了 HoloCine 等现有前沿技术。
此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。尽管在处理多角色并发及大幅度动作衔接上仍有局限,但团队已在 Hugging Face 开放了权重数据,并上线了项目页面供开发者探索。
地址:https://kevin-thu.github.io/StoryMem/
https://huggingface.co/Kevin-thu/StoryMem