Large Language Models as General Pattern Machines

Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
[Google DeepMind & Stanford University]

大型语言模型可以用作通用的模式识别机

要点:

  • 动机:观察到预训练的大型语言模型(LLM)能自回归地完成复杂的Token序列,这些序列从由概率上下文无关语法(PCFG)程序生成的任意序列,到在抽象推理语料库(ARC)中发现的更丰富的空间模式。这些结果表明,没有任何额外的训练,LLM可以作为一般的序列建模器,由上下文学习驱动。本文研究了这些零样本能力如何应用于机器人技术问题。
  • 方法:通过一系列实验,探索了大型语言模型(LLM)作为一般模式机的能力。将LLM的能力分为三个领域进行评估:序列转换、序列补全和序列改进。展示了LLM能推广某些序列转换的能力,并将其应用于机器人任务。接下来,评估了LLM完成简单函数模式的能力,并将其应用于机器人任务,如扩展从运动示教中得到的擦拭动作,或在白板上绘制模式。最后,展示了LLM如何进行基本形式的序列改进。
  • 优势:揭示了大型语言模型(LLM)在没有任何额外训练的情况下,可以作为一般的序列建模器,由上下文学习驱动。此外,还展示了如何将这些能力应用于机器人技术问题,这为使用LLM驱动低级控制提供了一个令人兴奋的前景。


揭示了预训练的大型语言模型(LLM)在没有任何额外训练的情况下,可以作为一般的序列建模器,由上下文学习驱动,并展示了如何将这些能力应用于机器人技术问题。

https://arxiv.org/abs/2307.04721 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除