When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1

R. Thomas McCoy ,
Shunyu Yao ,
Dan Friedman ,
Mathew D. Hardy ,
Thomas L. Griffiths
2024年10月02日
  • 简介
    在《自回归的余烬》(McCoy等人,2023)中,我们展示了几个大型语言模型(LLM)存在一些重要的限制,这些限制可以归因于它们在下一个单词预测中的起源。在这里,我们调查了OpenAI的o1系统是否仍然存在这些问题,该系统与以前的LLM不同之处在于它是为推理而优化的。我们发现,在许多情况下,o1在许多情况下显着优于以前的LLM,特别是在常见任务的罕见变体(例如,从列表中每个单词的第二个字母形成缩写,而不是第一个字母)上有特别大的改进。尽管有这些数量上的改进,o1仍然显示出与以前系统相同的定性趋势。具体而言,o1-像以前的LLM一样-对示例和任务的概率敏感,在高概率设置中表现更好,需要较少的“思考代币”,而在低概率设置中表现更差。这些结果表明,为推理优化语言模型可以缓解但可能无法完全克服语言模型的概率敏感性。
  • 图表
  • 解决问题
    论文旨在研究新的OpenAI系统o1在推理任务上的表现,以及是否存在与以前的大型语言模型相同的概率敏感性问题。
  • 关键思路
    o1是一个专门为推理而优化的语言模型,相比以前的语言模型在很多任务上有很大的提高,特别是在处理罕见变体的任务上。然而,o1仍然表现出与以前模型相同的概率敏感性问题。
  • 其它亮点
    论文使用o1在多个任务上进行了实验,并与以前的语言模型进行了比较。实验结果表明,o1在处理罕见变体的任务上有很大的提高。然而,o1仍然存在概率敏感性问题。论文建议,优化语言模型以进行推理可以减轻但可能无法完全消除语言模型的概率敏感性问题。
  • 相关研究
    在最近的相关研究中,也有关注语言模型的概率敏感性问题。例如,Gururangan等人在“Don't Stop Pretraining: Adapt Language Models to Domains and Tasks”中探讨了如何通过自适应预训练来解决这个问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论