- 简介当前的多模态模型旨在突破单一模态表示的局限,通过统一理解和生成能力来实现更高级的认知功能,通常借助文本到图像(T2I)任务来校准语义一致性。然而,这些模型在训练与评估中依赖静态、单幅图像的生成方式,导致其过度拟合于静态模式匹配和语义融合,从而从根本上限制了对随时间展开的动态过程的建模能力。为应对这些局限,我们提出了Envision——一个基于因果事件演进的链式文本到多图像生成评测基准。该基准以世界知识为基础,以时空因果关系为结构框架,重新组织了现有的评估维度,包含跨越六个科学与人文学科领域的1000个四阶段提示。为了将评估从单张图像转向连续帧,并检验模型是否真正内化了世界知识且遵守因果时序约束,我们引入了Envision-Score这一综合性指标,整合了多维度的一致性、物理合理性以及美学表现。对15个模型(10个专用T2I模型,5个统一多模态模型)的全面评估发现:专用T2I模型在美学呈现方面表现出色,但缺乏内在的世界知识;而统一的多模态模型弥补了这一差距,在因果叙事连贯性上持续优于专用模型。然而,即便是这些统一架构,仍逊色于闭源模型,并且难以克服时空一致性这一核心挑战。这表明,局限于因果孤立的单幅图像,会阻碍多帧推理与生成能力的发展,促使模型偏向静态模式匹配而非动态世界建模,最终制约了世界知识的内化与生成能力。
-
- 图表
- 解决问题当前多模态模型主要依赖静态的单图像生成(如文本到图像)进行训练和评估,导致其过度拟合于静态模式匹配与语义融合,难以建模随时间展开的动态过程,尤其在因果事件推进和时空一致性方面表现薄弱。论文试图验证:现有模型是否真正内化了世界知识并能遵循时空因果约束进行多阶段图像序列生成——这是一个尚未被充分探索的新问题。
- 关键思路提出Envision,首个基于因果事件演进的链式文本到多图像生成评测基准,强调由世界知识驱动、结构化于时空因果之上的四阶段事件生成任务;同时设计Envision-Score,一种综合多维一致性、物理合理性和美学质量的 holistic 评估指标,推动评估从单帧静态输出转向多帧动态推理能力的衡量。相比以往仅关注单图语义对齐的工作,本论文首次系统性地将因果链条和时间演化引入多模态生成评估框架。
- 其它亮点构建了包含1,000个四阶段提示语的数据集,覆盖科学与人文六大领域,所有样本均基于真实世界知识和因果逻辑构建;设计严谨的实验评估15个主流模型(10个专用T2I模型 + 5个统一多模态模型),发现统一模型在因果叙事连贯性上优于专用模型,但仍显著落后于闭源模型且普遍存在时空不一致问题;Envision-Score整合人类与自动化评估维度;目前数据集与评估协议已开源,代码公开,为后续动态多模态研究提供基础;值得深入的方向包括:显式建模事件动力学的架构设计、训练中引入时序监督信号、以及构建可学习的因果先验机制。
- 1. Flamingo: a Visual Language Model for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. VideoGPT: Video Neural Text-to-Video Generation 4. Make-A-Video: Text-to-Video Generation without Text-Video Data 5. Phenaki: Variable Length Video Generation from Real-World Events 6. MUSE: Multi-step Reasoning via Scene Evolution
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流