- 简介随着多模态大模型(MLLMs)在各种挑战性任务中不断进步,一个关键问题随之浮现:这些模型还缺少哪些核心能力?人类学习的一个重要方面是与环境的持续交互——这种交互不仅限于语言,还涉及多模态的理解和生成。为了更接近人类水平的智能,模型也需要支持多轮、多模态的交互。具体来说,它们需要能够理解交织的多模态上下文,并在持续的对话中做出连贯的回应。在这项工作中,我们通过提出 InterMT 进行了初步探索,这是首个针对多轮多模态交互的偏好数据集,基于真实的人类反馈构建。在这一探索中,我们特别强调了人类监督的重要性,引入了专家注释来引导整个过程,这是因为当前的 MLLMs 缺乏这样的复杂交互能力。InterMT 将人类偏好从全局和局部两个层面分解为九个子维度,包含 15.6 万个提示(prompt)、52.6 万个多轮对话实例以及 32.4 万对人类标注的偏好对。为了弥补多模态理解和生成能力的不足,我们引入了一种代理工作流,利用工具增强型 MLLMs 构建多轮问答实例。为进一步实现这一目标,我们提出了 InterMT-Bench,用于评估 MLLMs 在协助裁判完成多轮多模态任务中的能力。我们通过如裁判调节等应用场景展示了 InterMT 的实用性,并进一步揭示了裁判模型的多轮扩展规律。我们希望开放我们的数据能帮助推动将当前 MLLMs 对齐到下一步的研究进展。我们的项目网站可在 https://pku-intermt.github.io 查阅。
-
- 图表
- 解决问题论文试图解决当前多模态大模型(MLLMs)在多轮交互中缺乏复杂互动能力的问题,尤其是对多模态上下文的理解和生成能力不足。这是一个新问题,强调了模型需要像人类一样通过持续的环境交互来提升智能水平。
- 关键思路论文提出构建InterMT——首个基于真实人类反馈的多轮多模态交互偏好数据集,并引入一种代理工作流,利用工具增强的MLLMs生成多轮问答实例。同时,论文提出了InterMT-Bench作为评估MLLMs在多轮多模态任务中表现的基准。这种方法的新意在于结合人类反馈和工具增强技术,弥补现有模型在多模态理解和生成上的不足。
- 其它亮点论文设计了一个包含15.6k提示、52.6k多轮对话实例和32.4k人类标注偏好对的大规模数据集InterMT。此外,还提出了用于评估的InterMT-Bench,并展示了其在法官模型多轮扩展规律中的应用。数据集和相关代码已开源(https://pku-intermt.github.io),为后续研究提供了宝贵资源。未来可进一步探索如何将人类反馈更有效地整合到模型训练中,以及扩展到更多实际应用场景。
- 近期相关研究包括:1)《Multimodal Dialogue Learning with Human Feedback》探讨了多模态对话系统中的人类反馈机制;2)《ToolBench: A Framework for Tool-Augmented Language Models》介绍了工具增强语言模型的工作框架;3)《Scaling Laws for Multimodal Models》研究了多模态模型的扩展规律。这些研究共同推动了多模态模型在交互性和实用性方面的进步。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流