FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

2024年07月16日
  • 简介
    本文介绍了视觉语言模型(VLMs)在多种应用中取得的显著进展,并成为普遍的研究方向。为了使VLMs能够根据用户反馈自动完善其响应,本文构建了一个名为FIRE的反馈-精化数据集,包含来自27个源数据集的1.1M个多轮对话。为了扩大数据收集规模,FIRE分为两个部分:FIRE-100K和FIRE-1M,其中FIRE-100K由GPT-4V生成,而FIRE-1M则是通过在FIRE-100K上训练的模型自由生成的。然后,本文构建了FIRE-Bench作为一个基准测试,全面评估了VLMs的反馈精化能力,其中包含11K个反馈-精化对话作为测试数据,两个评估设置和一个模型为VLMs提供反馈。作者通过在FIRE-100K和FIRE-1M上微调LLaVA模型,开发了FIRE-LLaVA模型,在FIRE-Bench上表现出显著的反馈-精化能力,并且性能比未经训练的VLMs提高了50%,使用户-代理交互更加高效,并凸显了FIRE数据集的重要性。
  • 图表
  • 解决问题
    本论文旨在构建一个包含1.1M个多轮对话的数据集FIRE,用于评估基于用户反馈的自然语言生成模型的优化能力。
  • 关键思路
    FIRE数据集由27个源数据集组成,分为FIRE-100K和FIRE-1M两个部分。使用GPT-4V生成FIRE-100K,然后使用FIRE-100K训练模型生成FIRE-1M。论文还提出了一种新的模型FIRE-LLaVA,该模型在FIRE-Bench测试集上表现出良好的优化能力。
  • 其它亮点
    论文提出了一个新的数据集FIRE,用于评估自然语言生成模型的优化能力。FIRE数据集由27个源数据集组成,包含1.1M个多轮对话。论文还提出了一个新的模型FIRE-LLaVA,该模型在FIRE-Bench测试集上表现出良好的优化能力。
  • 相关研究
    在这个领域中,最近的相关研究包括:《DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation》、《Towards Making the Best Use of BERT in Neural Machine Translation》、《A Survey on Dialogue Systems: Recent Advances and New Frontiers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论