InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

向作者提问

NEW

简介

多模态大语言模型（MLLMs）为图形用户界面（GUI）代理提供了支持，展现出在计算设备上自动化任务的潜力。近期的研究已经开始探索GUI任务中的推理，并取得了令人鼓舞的结果。然而，许多当前的方法依赖于人工设计的推理模板，这可能导致推理在复杂的GUI环境中不够稳健和适应性强。同时，一些现有的代理仍然作为反应型代理运行，主要依赖隐式推理，而这种推理可能缺乏足够的深度，无法应对需要规划和错误恢复的GUI任务。我们认为，推动这些代理的发展需要从反应型行为转向基于深思熟虑推理的行为。为了促进这一转变，我们引入了InfiGUI-R1，这是一个基于MLLM的GUI代理，通过我们的Actor2Reasoner框架开发而成。该框架是一种以推理为中心的两阶段训练方法，旨在逐步将代理从反应型代理演变为深思熟虑的推理者。第一阶段是推理注入，专注于建立基本的推理器。我们采用空间推理蒸馏技术，通过带有明确推理步骤的轨迹，将教师模型的跨模态空间推理能力迁移到MLLMs中，使模型能够在生成动作之前将GUI视觉-空间信息与逻辑推理相结合。第二阶段是深思熟虑增强，使用强化学习将基本推理器精炼为深思熟虑的推理器。此阶段引入了两种方法：子目标引导，奖励模型生成准确的中间子目标；以及错误恢复场景构建，从识别出的易出错步骤中创建失败与恢复的训练场景。实验结果表明，InfiGUI-R1在GUI定位和轨迹任务中表现出色。资源可访问：https://github.com/Reallm-Labs/InfiGUI-R1。
作者讲解·2
- 讲解视频(1)
- 相关报道(1)
图表
解决问题

论文试图解决GUI任务中自动化代理在复杂环境下的推理能力不足问题，特别是当前依赖手动设计模板或隐式推理的局限性。这是一个较为新颖的问题，专注于将GUI代理从反应型行为转变为基于深思熟虑推理的行为。
关键思路

论文提出了一种名为Actor2Reasoner的两阶段训练框架，以逐步将GUI代理从Reactive Actors转化为Deliberative Reasoners。第一阶段通过Spatial Reasoning Distillation将跨模态空间推理能力注入模型；第二阶段则通过强化学习（包括Sub-goal Guidance和Error Recovery Scenario Construction）进一步提升模型的推理能力。这种方法相比现有研究更具系统性和针对性，能够显著增强代理在复杂GUI任务中的规划与错误恢复能力。
其它亮点

论文引入了明确的两阶段推理训练框架，并通过实验验证了其在GUI接地和轨迹任务中的有效性。实验设计涵盖了多种场景，包括子目标生成和错误恢复训练。代码已开源至GitHub (https://github.com/Reallm-Labs/InfiGUI-R1)，便于后续研究者复现和改进。未来可以深入研究更多复杂的GUI环境以及更广泛的跨模态推理任务。
相关研究

近期相关研究包括：1)《ReAct: Synergizing Reasoning and Acting in Language Models》探讨了语言模型中推理与行动的结合；2)《Plan-and-Execute for GUI Tasks》研究了基于计划执行的GUI任务自动化；3)《Learning to Act by Predicting the Future》提出了通过预测未来状态来优化代理行为的方法。这些研究共同推动了AI代理在复杂任务中的推理与执行能力。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问