MIT｜推理还是背诵？通过反事实任务探索语言模型的能力和局限性

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim
[MIT & Boston University]

推理还是背诵？通过反事实任务探索语言模型的能力和局限性

动机：尽管大型语言模型(LM)在许多任务中表现出了显著的性能，但在处理与训练期间看到的特定任务有所不同的任务时，这些模型通常会遇到挑战。本文的目标是通过提出一种基于“反事实”任务变体的评估框架，来探索LM的能力和局限性，这些任务变体偏离了标准任务背后的默认假设。
方法：提出一种新的评估框架，该框架基于“反事实”任务变体，这些任务变体偏离了标准任务背后的默认假设。设计了一套包含11个任务的评估套件，用于测量LM在多个类别和领域中适应新任务变体的灵活性。在每个任务中，原始任务在默认条件下和其反事实变体共享相同的推理过程，但具体的输入-输出映射有所不同。
优势：能有效地评估LM在处理新任务变体时的灵活性，并且在各种任务中都显示出了其有效性。此外，这种方法揭示了模型在默认和反事实任务之间的行为关系，为理解和改进LM提供了新的视角。

提出了一种基于“反事实”任务变体的评估框架，用于探索大型语言模型的能力和局限性，该框架能有效地评估模型在处理新任务变体时的灵活性，并且在各种任务中都显示出了其有效性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除