Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Jacky Liang ,

Fei Xia ,

Wenhao Yu ,

Andy Zeng ,

Montserrat Gonzalez Arenas ,

Maria Attarian ,

Maria Bauza ,

Matthew Bennice ,

Alex Bewley ,

Adil Dostmohamed ,

Chuyuan Kelly Fu ,

Nimrod Gileadi ,

Marissa Giustina ,

Keerthana Gopalakrishnan ,

Leonard Hasenclever ,

Jan Humplik ,

Jasmine Hsu ,

Nikhil Joshi ,

Ben Jyenis ,

Chase Kew ,

Sean Kirmani ,

Tsang-Wei Edward Lee ,

Kuang-Huei Lee ,

Assaf Hurwitz Michaely ,

Joss Moore ,

Ken Oslund ,

Dushyant Rao ,

Allen Ren ,

Baruch Tabanpour ,

Quan Vuong ,

Ayzaan Wahid ,

Ted Xiao ,

Ying Xu ,

Vincent Zhuang ,

Peng Xu ,

Erik Frey ,

Ken Caluwaerts ,

Tingnan Zhang ,

Brian Ichter ,

Jonathan Tompson ,

Leila Takayama ,

Vincent Vanhoucke ,

Izhak Shafran ,

Maja Mataric ,

Dorsa Sadigh ,

Nicolas Heess ,

Kanishka Rao ,

Nik Stewart ,

Jie Tan ,

Carolina Parada

2024年02月18日

简介

大型语言模型（LLMs）已被证明具有广泛的能力，例如从语言命令编写机器人代码——使非专家能够指导机器人行为，根据反馈进行修改，或者组合它们执行新任务。然而，这些能力（由上下文学习驱动）仅限于短期交互，其中用户的反馈仅在符合LLM上下文大小的范围内保持相关，并且可能在较长的交互过程中被遗忘。在这项工作中，我们研究了对机器人代码编写LLMs进行微调，以记住它们的上下文交互并改善它们的可教性，即它们如何有效地适应人类输入（通过用户在考虑任务成功之前所做的平均更正次数来衡量）。我们的关键观察是，当人机交互被制定为部分可观察的马尔可夫决策过程（其中人类语言输入是观察值，机器人代码输出是动作）时，训练LLM以完成先前的交互可以被视为训练转换动态模型，可以与经典的机器人技术（如模型预测控制（MPC））相结合，以发现成功的更短路径。这就产生了语言模型预测控制（LMPC）框架，该框架对PaLM 2进行微调，以提高其在5个机器人实体的78个任务上的可教性——将未见任务的非专家教学成功率提高了26.9％，同时将人类更正的平均次数从2.4降低到1.9。实验表明，LMPC还产生了强大的元学习器，将在上下文中学习新任务的成功率提高了31.5％，涵盖了未见过的机器人实体和API。请访问以下网站查看视频，代码和演示：https://robot-teaching.github.io/。
图表
解决问题

本文旨在通过Fine-tuning机器人代码编写的LLMs，以记住其上下文交互并提高其可教性，从而解决长期交互中用户反馈不再相关的问题。
关键思路

将人机交互建模为部分可观察的马尔可夫决策过程，训练LLMs完成先前的交互，从而训练出一个转移动态模型，将其与经典机器人技术相结合，如模型预测控制（MPC），以发现成功的更短路径。提出了Language Model Predictive Control (LMPC)框架，通过Fine-tuning PaLM 2在5个机器人实例的78个任务上提高了其可教性，同时将平均人类纠正次数从2.4降低到1.9。
其它亮点

本文提出了LMPC框架，通过Fine-tuning LLMs提高机器人代码编写的可教性，并在78个任务上进行了实验，提高了非专家教学成功率。同时，该框架还可以产生强大的元学习器，提高了在未见过的机器人实例和API上学习新任务的成功率。作者还提供了视频、代码和演示。
相关研究

最近的相关研究包括使用LLMs进行自然语言处理和机器人控制的研究，以及使用MPC和其他机器学习技术进行机器人控制的研究。其中一些相关的论文包括："Learning to Navigate in Complex Environments Using Full-Resolution Neural Networks and MPC"，"Learning to Learn from Demonstrations for Real World Applications using LSTM and MPC"。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论