Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Jacky Liang ,
Fei Xia ,
Wenhao Yu ,
Andy Zeng ,
Montserrat Gonzalez Arenas ,
Maria Attarian ,
Maria Bauza ,
Matthew Bennice ,
Alex Bewley ,
Adil Dostmohamed ,
Chuyuan Kelly Fu ,
Nimrod Gileadi ,
Marissa Giustina ,
Keerthana Gopalakrishnan ,
Leonard Hasenclever ,
Jan Humplik ,
Jasmine Hsu ,
Nikhil Joshi ,
Ben Jyenis ,
Chase Kew ,
Sean Kirmani ,
Tsang-Wei Edward Lee ,
Kuang-Huei Lee ,
Assaf Hurwitz Michaely ,
Joss Moore ,
Ken Oslund ,
Dushyant Rao ,
Allen Ren ,
Baruch Tabanpour ,
Quan Vuong ,
Ayzaan Wahid ,
Ted Xiao ,
Ying Xu ,
Vincent Zhuang ,
Peng Xu ,
Erik Frey ,
Ken Caluwaerts ,
Tingnan Zhang ,
Brian Ichter ,
Jonathan Tompson ,
Leila Takayama ,
Vincent Vanhoucke ,
Izhak Shafran ,
Maja Mataric ,
Dorsa Sadigh ,
Nicolas Heess ,
Kanishka Rao ,
Nik Stewart ,
Jie Tan ,
Carolina Parada
2024年02月18日
  • 简介
    大型语言模型(LLMs)已被证明具有广泛的能力,例如从语言命令编写机器人代码——使非专家能够指导机器人行为,根据反馈进行修改,或者组合它们执行新任务。然而,这些能力(由上下文学习驱动)仅限于短期交互,其中用户的反馈仅在符合LLM上下文大小的范围内保持相关,并且可能在较长的交互过程中被遗忘。在这项工作中,我们研究了对机器人代码编写LLMs进行微调,以记住它们的上下文交互并改善它们的可教性,即它们如何有效地适应人类输入(通过用户在考虑任务成功之前所做的平均更正次数来衡量)。我们的关键观察是,当人机交互被制定为部分可观察的马尔可夫决策过程(其中人类语言输入是观察值,机器人代码输出是动作)时,训练LLM以完成先前的交互可以被视为训练转换动态模型,可以与经典的机器人技术(如模型预测控制(MPC))相结合,以发现成功的更短路径。这就产生了语言模型预测控制(LMPC)框架,该框架对PaLM 2进行微调,以提高其在5个机器人实体的78个任务上的可教性——将未见任务的非专家教学成功率提高了26.9%,同时将人类更正的平均次数从2.4降低到1.9。实验表明,LMPC还产生了强大的元学习器,将在上下文中学习新任务的成功率提高了31.5%,涵盖了未见过的机器人实体和API。请访问以下网站查看视频,代码和演示:https://robot-teaching.github.io/。
  • 图表
  • 解决问题
    本文旨在通过Fine-tuning机器人代码编写的LLMs,以记住其上下文交互并提高其可教性,从而解决长期交互中用户反馈不再相关的问题。
  • 关键思路
    将人机交互建模为部分可观察的马尔可夫决策过程,训练LLMs完成先前的交互,从而训练出一个转移动态模型,将其与经典机器人技术相结合,如模型预测控制(MPC),以发现成功的更短路径。提出了Language Model Predictive Control (LMPC)框架,通过Fine-tuning PaLM 2在5个机器人实例的78个任务上提高了其可教性,同时将平均人类纠正次数从2.4降低到1.9。
  • 其它亮点
    本文提出了LMPC框架,通过Fine-tuning LLMs提高机器人代码编写的可教性,并在78个任务上进行了实验,提高了非专家教学成功率。同时,该框架还可以产生强大的元学习器,提高了在未见过的机器人实例和API上学习新任务的成功率。作者还提供了视频、代码和演示。
  • 相关研究
    最近的相关研究包括使用LLMs进行自然语言处理和机器人控制的研究,以及使用MPC和其他机器学习技术进行机器人控制的研究。其中一些相关的论文包括:"Learning to Navigate in Complex Environments Using Full-Resolution Neural Networks and MPC","Learning to Learn from Demonstrations for Real World Applications using LSTM and MPC"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论