- 简介虽然大型语言模型(LLMs)在语言理解和交互决策的各种任务中得到了越来越广泛的应用,但它们惊人的表现主要是由于其中嵌入的全面和深入的领域知识。然而,这种知识的程度可能因不同领域而异。现有的方法通常假设LLMs已经具备这种全面和深入的环境知识,忽略了它们对实际世界动态的理解可能存在的差距。为了解决这个问题,我们引入了Discover,Verify和Evolve(DiVE)框架,该框架从少量演示中发现世界动态,验证这些动态的正确性,并演化出新的,针对当前情况量身定制的高级动态。通过广泛的评估,我们分析了每个组件对性能的影响,并将DiVE自动生成的动态与人工注释的世界动态进行了比较。我们的结果表明,受DiVE指导的LLMs可以做出更好的决策,在Crafter环境中实现与人类玩家相当的奖励。
- 图表
- 解决问题介绍了Discover, Verify, and Evolve (DiVE)框架,以解决LLMs在理解和交互决策中可能存在的知识缺口问题。
- 关键思路DiVE框架通过从少量演示中发现世界动态、验证其正确性,并进化出新的动态,来指导LLMs做出更好的决策。
- 其它亮点论文通过实验评估了每个组件对性能的影响,并将DiVE自动生成的动态与人类注释的动态进行了比较。结果表明,使用DiVE框架指导的LLMs可以做出更好的决策,并在Crafter环境中实现与人类玩家相当的回报。
- 近期相关的研究包括使用迁移学习来提高LLMs的性能,以及使用强化学习来指导LLMs做出更好的决策。
沙发等你来抢
去评论
评论
沙发等你来抢