- 简介大型语言模型(LLMs)利用其语言理解和文本生成能力,在机器人应用中,特别是任务规划方面,展现出了显著的潜力。然而,在家庭机器人等应用中,这些模型的个性化仍存在重要差距。我们介绍了LLM-Personalize,这是一个新颖的框架,具有优化流程,旨在为家庭机器人个性化LLM规划器。我们的LLM-Personalize框架具有LLM规划器,该规划器在多房间、部分可观察的家庭场景中执行迭代规划,利用本地观察构建的场景图。生成的计划包括一系列高级动作,随后由控制器执行。我们方法的核心是优化流程,它结合了模仿学习和迭代自我训练,以个性化LLM规划器。特别是,模仿学习阶段从演示中执行初始LLM对齐,并引导模型以促进有效的迭代自我训练,进一步探索并对齐模型与用户偏好。我们在Housekeep上评估了LLM-Personalize,这是一个具有挑战性的模拟现实世界3D基准测试,用于家庭重新布置,并显示LLM-Personalize的成功率比现有的LLM规划器提高了30%以上,展示了与人类偏好显著改善的对齐。项目页面:https://donggehan.github.io/projectllmpersonalize/。
- 图表
- 解决问题本论文旨在解决家庭机器人任务规划中的个性化问题,提出了LLM-Personalize框架,通过结合模仿学习和迭代自训练的方法,对LLM规划器进行个性化优化。
- 关键思路LLM-Personalize框架包括LLM规划器和优化管道两部分,其中LLM规划器通过构建场景图,在多房间、部分可观测的家庭场景中进行迭代规划,生成一系列高层次动作,然后由控制器执行。优化管道结合了模仿学习和迭代自训练的方法,用于个性化LLM规划器,其中模仿学习阶段从演示中进行初始LLM对齐,并引导模型进行有效的迭代自训练,以进一步探索和对齐用户偏好。
- 其它亮点论文在Housekeep数据集上进行了实验,展示了LLM-Personalize相比现有的LLM规划器可以提高超过30%的成功率,从而显着提高了与人类偏好的一致性。此外,论文还开源了项目代码。
- 最近的相关研究包括使用LLM进行任务规划的其他工作,如GPT-2和BERT等模型的应用,以及使用强化学习进行任务规划的研究,如深度强化学习和模仿学习等。
沙发等你来抢
去评论
评论
沙发等你来抢