浙大团队提出IAMFlow：无需训练，让自回归视频生成记住角色身份

投稿作者：浙江大学 April团队

近年来，基于 Diffusion Transformer 的视频生成模型在短视频质量上进步明显。但当生成任务从几秒钟扩展到更长的叙事片段时，模型需要持续处理历史画面、当前提示和未来动作之间的关系。自回归视频生成按片段逐步生成后续帧，天然适合长视频和流式交互，却也暴露出一个关键问题：局部上下文窗口有限，早期角色和属性会逐渐被弱化。

这一问题在多提示场景中更明显。用户可能在生成过程中加入新指令，例如让某个角色重新入场，或改变角色之间的互动。如果模型无法把提示中的名字和历史画面中的人物绑定起来，就会出现身份漂移、角色重复、服装或发型变化等现象。对叙事视频而言，这类错误会直接破坏连贯性，严重影响观感。

为此，浙江大学 APRIL 团队及其合作者提出了 IAMFlow，无需重新训练视频生成模型，而是在推理阶段引入身份感知记忆机制，显式记忆和检索角色身份。

论文链接：https://arxiv.org/abs/2605.18733

项目链接：https://eddie0521.github.io/projects/iamflow/

针对多提示叙事评测方面的空白，研究团队进一步构建了 NarraStream-Bench。实验表明，IAMFlow 的总体得分达到 75.73，比最强基线高 2.56 分，同时相比最高效基线实现 1.39 倍加速。

这一工作的价值在于把长视频生成中的“记忆”问题具体化为“身份管理”问题。这让模型关注角色是谁、具有什么视觉属性、何时离场和回归，而不只是保存若干历史帧。在用户体验方面，稳定的角色身份能让 AI 视频从短视频展示走向长视频连续叙事，也为交互式创作、短剧生成和虚拟角色应用提供更可靠的基础。

图 1 | 三种记忆范式对比。上：LongLive 用固定锚点，MemFlow 做固定策略检索，都无法应对跨提示角色漂移。下：IAMFlow 在 60 秒内保持角色外貌完全一致。

研究方法

1.IAMFlow：面向角色一致性的身份感知记忆框架

现有长视频方法通常依赖固定历史帧、压缩记忆或基于注意力的关键帧检索。这些策略能保留部分视觉信息，但难以回答当前片段中最需要保留的对象是什么。IAMFlow 改为围绕实体身份组织记忆：每个角色都有全局 ID，系统根据角色 ID 查找相关历史证据，再把这些信息送入后续生成过程。

具体来说，每次接收新提示时，IAMFlow 会先使用 LLM 解析角色名称和视觉属性，例如发型、衣着、随身物品和相对关系，再将新提示中的实体与历史实体匹配，为持续出现的角色维护同一个全局 ID。有了这层身份绑定，即使角色换一种指代表达，或在离场后重新出现，模型仍能找到对应的历史身份。

生成新视频片段前，Memory Bank 会根据当前活跃角色的全局 ID 检索相关关键帧。这一步关注的不是画面整体相似度，而是与目标角色身份有关的历史证据。当旧片段被移出局部窗口时，系统会评估哪些帧更能代表角色身份，并将这些帧归档到长期记忆中，避免早期角色信息随时间被稀释。

在生成过程中，IAMFlow 还使用 VLM 在后台检查角色属性，发现明显偏移后更新记忆。这条校验链路与视频生成并行运行，不会打断主推理流程。同时，方法引入自适应提示过渡，在提示切换时平滑交叉注意力信号，从而降低角色突变和画面闪变的概率。

图 2 | IAMFlow 框架总览。LLM 提取实体并分配全局 ID，Memory Bank检索关联帧，异步 VLM 验证更新，DiT 去噪生成。

2.系统加速设计：让身份记忆不拖慢生成

记忆增强方法通常会带来额外开销：历史帧需要存储，关键帧需要检索，角色属性还需要校验。IAMFlow 没有把这些步骤串行叠加到主干推理上，而是把加速设计放进系统流程中，尽量让身份记忆与视频生成并行完成。

第一，异步验证。VLM 负责检查角色身份和视觉属性，但这一过程在后台线程运行，与 DiT 去噪和视频块解码重叠，因此不会阻塞主生成链路。

第二，模型量化。系统遵循 LightX2V 的设置，对 DiT 的 FFN 层进行 FP8 量化，并使用 TinyVAE 解码，降低显存和计算压力。

第三，部署适配。LLM 与 VLM 通过 vLLM 引擎调度，减少离线调用带来的启动延迟。在 NVIDIA H20 上测试时，IAMFlow 端到端生成 60 秒视频的速度达到无记忆模块基线的 1.39 倍，实现了身份一致性和推理效率的同步提升。

3.NarraStream-Bench：填补叙事长视频评测空白

为评估多提示长视频中的角色一致性，团队构建了 NarraStream-Bench。该基准包含 324 个 60 秒叙事脚本，每个脚本由 6 段连续提示组成，覆盖角色数量、交互方式、进出场模式、长程回调、角色区分难度和指代变化等 6 个维度。评测体系包括视觉质量、时间一致性和指令遵循 3 个方面，共 11 项指标。

图 3 | NarraStream-Bench 总览。(a) 六维度提示分布 (b) 数据库构建流程 (c) 三维评测维度。

研究成果

研究团队在多方面对 IAMFlow 与 NarraStream-Bench 进行了深入研究。

1.总体表现：角色一致性与指令遵循同步提升

在 NarraStream-Bench 的 60 秒多提示设置下，IAMFlow 获得了 75.73 的总体得分，高于 Deep Forcing、LongLive 和 MemFlow 等基线方法。从细分指标看，时间一致性和指令遵循的提升明显，这与身份感知记忆的设计目标一致。

图 4 | NarraStream-Bench上各方法指标对比

2.定性结果：减少身份漂移和属性丢失

在定性对比中，基线方法容易把同一角色生成成不同外观，或在角色再次出现时改变服装和发型。IAMFlow 通过全局 ID 检索对应历史帧，使角色在更长时间跨度内保持稳定。这类改进对普通观众也更直观，因为人物是否一致往往比单帧细节更影响观看体验。

图 5 | 60 秒定性对比。IAMFlow 始终保持角色外貌一致，而基线方法出现不同程度的角色错配、属性漂移和画面质量坍塌。

3.Benchmark鲁棒性与人类偏好研究

针对 Benchmark 本身，团队还做了严格的评测鲁棒性验证：用 GPT-5 和 Gemini-3.1-Pro 替换掉原来的 Qwen3-VL，IAMFlow 依然保持领先。人类偏好研究也确认了自动指标与人类判断的高度一致性。

图 6 | NarraStream-Bench的精心设计，使其免受MLLM本身的偏好影响，与人类判断高度一致。

不足和未来方向

当然，这项研究也存在一些局限。

IAMFlow 当前优先保证角色身份稳定，因此在需要大幅改变角色状态的场景中可能偏保守。例如高速运动、复杂肢体交互、服装主动变化和角色关系演化，都要求系统在保持一致和响应新提示之间取得更细的平衡。

研究团队表示，他们将在未来的工作中继续探索更灵活的自适应记忆策略，让记忆强度随剧情和提示变化动态调整；另一条方向则是构建更细粒度的实体表征，把角色的外观、动作、关系和状态变化分开建模。

如果这一问题得到更好的解决，AI 长视频生成将更接近可持续编辑和可复用角色资产的创作流程。

内容中包含的图片若涉及版权问题，请及时与我们联系删除