- 简介最近,多模态大语言模型(MLLMs)展示了强大的视觉理解和决策能力,使得在未知环境中探索自主改进MLLMs成为可能。然而,像人类或环境反馈这样的外部反馈并不总是可用的。为了应对这一挑战,现有方法主要集中在通过投票和评分机制增强MLLMs的决策能力,而很少有人努力提高MLLMs在未知环境中的环境理解能力。为了充分释放MLLMs的自学习潜力,我们提出了一种新的演员-评论家自学习范式,称为SELU,受强化学习中演员-评论家范式的启发。评论家采用自问和事后重标记的方法,从演员收集的交互轨迹中提取知识,从而增强其环境理解能力。同时,演员通过评论家提供的自我反馈进行改进,增强其决策能力。我们在AI2-THOR和VirtualHome环境中评估了我们的方法,SELU通过自学习实现了大约28%和30%的评论家改进,以及大约20%和24%的演员改进。
- 图表
- 解决问题论文旨在解决多模态大语言模型在未知环境中缺乏外部反馈的问题,提出了一种基于自我学习的演员-评论家模型 SELU。
- 关键思路SELU 模型采用演员-评论家模型中的自我问询和后见重标记技术,从演员收集的交互轨迹中提取知识,以增强评论家的环境理解能力,同时通过评论家提供的自我反馈来提高演员的决策能力。
- 其它亮点论文在 AI2-THOR 和 VirtualHome 环境中评估了 SELU 模型,通过自我学习,评论家的改进约为28%和30%,演员的改进约为20%和24%。该论文提出的 SELU 模型可以为多模态大语言模型在未知环境中的自我学习提供新思路。
- 与该论文相关的研究包括基于强化学习的自我学习方法,如 PPO 和 SAC,以及基于演员-评论家模型的自我学习方法,如 SLAC 和 CURL。
沙发等你来抢
去评论
评论
沙发等你来抢