- 简介大型语言模型(LLMs)已被证明具有广泛的能力,例如从语言命令编写机器人代码——使非专家能够指导机器人行为,根据反馈进行修改,或者组合它们执行新任务。然而,这些能力(由上下文学习驱动)仅限于短期交互,其中用户的反馈仅在符合LLM上下文大小的范围内保持相关,并且可能在较长的交互过程中被遗忘。在这项工作中,我们研究了对机器人代码编写LLMs进行微调,以记住它们的上下文交互并改善它们的可教性,即它们如何有效地适应人类输入(通过用户在考虑任务成功之前所做的平均更正次数来衡量)。我们的关键观察是,当人机交互被制定为部分可观察的马尔可夫决策过程(其中人类语言输入是观察值,机器人代码输出是动作)时,训练LLM以完成先前的交互可以被视为训练转换动态模型,可以与经典的机器人技术(如模型预测控制(MPC))相结合,以发现成功的更短路径。这就产生了语言模型预测控制(LMPC)框架,该框架对PaLM 2进行微调,以提高其在5个机器人实体的78个任务上的可教性——将未见任务的非专家教学成功率提高了26.9%,同时将人类更正的平均次数从2.4降低到1.9。实验表明,LMPC还产生了强大的元学习器,将在上下文中学习新任务的成功率提高了31.5%,涵盖了未见过的机器人实体和API。请访问以下网站查看视频,代码和演示:https://robot-teaching.github.io/。
- 图表
- 解决问题本文旨在通过Fine-tuning机器人代码编写的LLMs,以记住其上下文交互并提高其可教性,从而解决长期交互中用户反馈不再相关的问题。
- 关键思路将人机交互建模为部分可观察的马尔可夫决策过程,训练LLMs完成先前的交互,从而训练出一个转移动态模型,将其与经典机器人技术相结合,如模型预测控制(MPC),以发现成功的更短路径。提出了Language Model Predictive Control (LMPC)框架,通过Fine-tuning PaLM 2在5个机器人实例的78个任务上提高了其可教性,同时将平均人类纠正次数从2.4降低到1.9。
- 其它亮点本文提出了LMPC框架,通过Fine-tuning LLMs提高机器人代码编写的可教性,并在78个任务上进行了实验,提高了非专家教学成功率。同时,该框架还可以产生强大的元学习器,提高了在未见过的机器人实例和API上学习新任务的成功率。作者还提供了视频、代码和演示。
- 最近的相关研究包括使用LLMs进行自然语言处理和机器人控制的研究,以及使用MPC和其他机器学习技术进行机器人控制的研究。其中一些相关的论文包括:"Learning to Navigate in Complex Environments Using Full-Resolution Neural Networks and MPC","Learning to Learn from Demonstrations for Real World Applications using LSTM and MPC"。
沙发等你来抢
去评论
评论
沙发等你来抢