InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback

向作者提问

NEW

简介

随着多模态大模型（MLLMs）在各种挑战性任务中不断进步，一个关键问题随之浮现：这些模型还缺少哪些核心能力？人类学习的一个重要方面是与环境的持续交互——这种交互不仅限于语言，还涉及多模态的理解和生成。为了更接近人类水平的智能，模型也需要支持多轮、多模态的交互。具体来说，它们需要能够理解交织的多模态上下文，并在持续的对话中做出连贯的回应。在这项工作中，我们通过提出 InterMT 进行了初步探索，这是首个针对多轮多模态交互的偏好数据集，基于真实的人类反馈构建。在这一探索中，我们特别强调了人类监督的重要性，引入了专家注释来引导整个过程，这是因为当前的 MLLMs 缺乏这样的复杂交互能力。InterMT 将人类偏好从全局和局部两个层面分解为九个子维度，包含 15.6 万个提示（prompt）、52.6 万个多轮对话实例以及 32.4 万对人类标注的偏好对。为了弥补多模态理解和生成能力的不足，我们引入了一种代理工作流，利用工具增强型 MLLMs 构建多轮问答实例。为进一步实现这一目标，我们提出了 InterMT-Bench，用于评估 MLLMs 在协助裁判完成多轮多模态任务中的能力。我们通过如裁判调节等应用场景展示了 InterMT 的实用性，并进一步揭示了裁判模型的多轮扩展规律。我们希望开放我们的数据能帮助推动将当前 MLLMs 对齐到下一步的研究进展。我们的项目网站可在 https://pku-intermt.github.io 查阅。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文试图解决当前多模态大模型（MLLMs）在多轮交互中缺乏复杂互动能力的问题，尤其是对多模态上下文的理解和生成能力不足。这是一个新问题，强调了模型需要像人类一样通过持续的环境交互来提升智能水平。
关键思路

论文提出构建InterMT——首个基于真实人类反馈的多轮多模态交互偏好数据集，并引入一种代理工作流，利用工具增强的MLLMs生成多轮问答实例。同时，论文提出了InterMT-Bench作为评估MLLMs在多轮多模态任务中表现的基准。这种方法的新意在于结合人类反馈和工具增强技术，弥补现有模型在多模态理解和生成上的不足。
其它亮点

论文设计了一个包含15.6k提示、52.6k多轮对话实例和32.4k人类标注偏好对的大规模数据集InterMT。此外，还提出了用于评估的InterMT-Bench，并展示了其在法官模型多轮扩展规律中的应用。数据集和相关代码已开源（https://pku-intermt.github.io），为后续研究提供了宝贵资源。未来可进一步探索如何将人类反馈更有效地整合到模型训练中，以及扩展到更多实际应用场景。
相关研究

近期相关研究包括：1)《Multimodal Dialogue Learning with Human Feedback》探讨了多模态对话系统中的人类反馈机制；2)《ToolBench: A Framework for Tool-Augmented Language Models》介绍了工具增强语言模型的工作框架；3)《Scaling Laws for Multimodal Models》研究了多模态模型的扩展规律。这些研究共同推动了多模态模型在交互性和实用性方面的进步。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问