FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

简介

本文介绍了视觉语言模型（VLMs）在多种应用中取得的显著进展，并成为普遍的研究方向。为了使VLMs能够根据用户反馈自动完善其响应，本文构建了一个名为FIRE的反馈-精化数据集，包含来自27个源数据集的1.1M个多轮对话。为了扩大数据收集规模，FIRE分为两个部分：FIRE-100K和FIRE-1M，其中FIRE-100K由GPT-4V生成，而FIRE-1M则是通过在FIRE-100K上训练的模型自由生成的。然后，本文构建了FIRE-Bench作为一个基准测试，全面评估了VLMs的反馈精化能力，其中包含11K个反馈-精化对话作为测试数据，两个评估设置和一个模型为VLMs提供反馈。作者通过在FIRE-100K和FIRE-1M上微调LLaVA模型，开发了FIRE-LLaVA模型，在FIRE-Bench上表现出显著的反馈-精化能力，并且性能比未经训练的VLMs提高了50％，使用户-代理交互更加高效，并凸显了FIRE数据集的重要性。
图表
解决问题

本论文旨在构建一个包含1.1M个多轮对话的数据集FIRE，用于评估基于用户反馈的自然语言生成模型的优化能力。
关键思路

FIRE数据集由27个源数据集组成，分为FIRE-100K和FIRE-1M两个部分。使用GPT-4V生成FIRE-100K，然后使用FIRE-100K训练模型生成FIRE-1M。论文还提出了一种新的模型FIRE-LLaVA，该模型在FIRE-Bench测试集上表现出良好的优化能力。
其它亮点

论文提出了一个新的数据集FIRE，用于评估自然语言生成模型的优化能力。FIRE数据集由27个源数据集组成，包含1.1M个多轮对话。论文还提出了一个新的模型FIRE-LLaVA，该模型在FIRE-Bench测试集上表现出良好的优化能力。
相关研究

在这个领域中，最近的相关研究包括：《DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation》、《Towards Making the Best Use of BERT in Neural Machine Translation》、《A Survey on Dialogue Systems: Recent Advances and New Frontiers》等。

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

评论