- 简介过程监督奖励模型(PRM)作为一种精细粒度的函数,为模型响应提供了详细的逐步骤反馈,有助于为复杂任务有效选择推理轨迹。尽管其具有诸多优势,但对 PRM 的评估仍较少被研究,特别是在多模态领域。为填补这一空白,本文首先在多个视觉-语言基准上评估了当前的视觉大语言模型(VLLM),将其作为两种类型的奖励模型:输出奖励模型(ORM)和过程奖励模型(PRM)进行基准测试。结果表明,无论是 ORM 还是 PRM,在所有任务中都没有表现出一致的优势,并且性能优越的 VLLM 并不一定能带来更好的奖励性能。为进一步推动评估,我们引入了 ViLBench,这是一个专门设计需要密集过程奖励信号的视觉-语言基准。值得注意的是,OpenAI 的 GPT-4o 在结合链式思维(CoT)的情况下仅达到 27.3% 的准确率,这表明该基准对当前的 VLLM 构成了相当大的挑战。最后,我们初步展示了一条弥合通用 VLLM 和奖励模型之间差距的有前景路径——通过使用增强的树搜索算法收集了 73.6 万条视觉-语言过程奖励数据,我们的 30 亿参数模型能够在 ViLBench 上通过选择 OpenAI o1 的生成结果,平均比标准 CoT 提高 3.3%,相较于未训练的版本最多提升 2.5%。我们已将代码、模型和数据的实现发布在 https://ucsc-vlaa.github.io/ViLBench。
- 图表
- 解决问题论文试图解决的问题是如何有效评估和改进视觉-语言模型(VLLMs)作为输出奖励模型(ORMs)和过程奖励模型(PRMs)的表现,尤其是在多模态领域。这是一个相对较新的问题,因为尽管PRMs在复杂任务中提供了细粒度的反馈,但其在多模态领域的评估尚未得到充分探索。
- 关键思路论文的关键思路是通过引入一个新的基准测试ViLBench来系统性地评估VLLMs作为ORMs和PRMs的能力。此外,作者提出了一种增强的树搜索算法来收集大规模的视觉-语言过程奖励数据,并展示了如何通过这些数据训练一个3B参数的模型以显著提升性能。相比现有研究,该方法不仅关注最终输出的质量,还强调了对推理过程的细致评价。
- 其它亮点1. 提出了ViLBench,一个需要密集过程奖励信号的视觉-语言基准,揭示了当前VLLMs(如GPT-4o)在复杂任务中的局限性;2. 使用增强的树搜索算法生成了73.6K条视觉-语言过程奖励数据;3. 实验结果表明,经过训练的3B模型相较于标准链式思维(CoT)方法平均提升了3.3%,且开源了代码、模型和数据集供社区进一步研究。
- 近期相关研究包括:1. 'Evaluating Large Language Models Trained on Code' 探讨了大型语言模型在代码生成任务中的表现;2. 'Vision-Language Pre-training: From Natural Language to Vision and Back Again' 研究了视觉-语言预训练模型的潜力;3. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' 深入分析了链式思维提示对语言模型推理能力的影响。此外,其他工作如FLAN系列和VQA模型也与本文的研究方向密切相关。
沙发等你来抢
去评论
评论
沙发等你来抢