ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

简介

大型多模型（LMMs）在理解人类指令方面表现出色，并在广泛的任务中展示了显著的结果。来自人类反馈的强化学习（RLHF）和AI反馈（RLAIF）通过将它们与特定偏好对齐来进一步改进LMMs。这些方法主要使用基于排名的反馈来进行整个生成的排序。借助先进的AI模型（教师），例如GPT-4和Claude 3 Opus，我们可以请求各种昂贵的人类提供的详细反馈。我们提出了一个两阶段算法ARES，它交替使用强化学习（RL）和监督微调（SFT）。首先，我们请求教师对每个句子在思维链（CoT）中对解决问题的贡献进行评分。这种句子级别的反馈允许我们考虑单个有价值的片段，为RL过程提供更细粒度的奖励。其次，我们要求教师在RL阶段后纠正错误的推理。RL过程需要大量的超参数调整工作，并且经常会生成像重复单词和不完整句子之类的错误。通过校正反馈，我们通过SFT稳定了RL微调模型。我们在多模型数据集ScienceQA和A-OKVQA上进行实验，以证明我们的提议的有效性。 ARES的合理推理在GPT-4o的基线模型中实现了约70％的胜率。此外，我们观察到改进的合理推理导致多模式数据集的推理答案准确率平均提高了2.5％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高大型多模态模型（LMM）的推理能力，通过人类和AI反馈实现更好的对齐，同时解决强化学习中的错误问题。
关键思路

提出了一个基于两阶段的算法ARES，通过交替使用强化学习和监督微调来稳定RL fine-tuned模型。同时，使用先进的AI模型（Teacher）来提供更细节的反馈，包括句子级别的贡献评分和纠正错误的推理。
其它亮点

实验使用了多模态数据集ScienceQA和A-OKVQA，提高了模型的推理能力和答案准确性。算法ARES在GPT-4o的评估下，获得了约70%的胜率。
相关研究

近期的相关研究包括使用LMMs进行多模态推理的工作，以及使用强化学习和监督学习的方法来提高模型性能的研究，例如Reinforcement Learning with Human Feedback (RLHF)和AI Feedback (RLAIF)。

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

提问交流

提问交流