Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

简介

大型语言模型（LLMs）展示了卓越的推理能力，但它们仍然容易出现错误，特别是在涉及复杂时间逻辑的时间推理任务中。现有研究已经使用不同的数据集和基准测试探究了LLM在时间推理方面的性能。然而，这些研究经常依赖于LLM可能在预训练期间遇到的真实世界数据，或者采用了可以无意中引入事实不一致的匿名化技术。在这项工作中，我们通过引入新颖的合成数据集，专门设计用于评估LLM在各种场景下的时间推理能力，解决了这些限制。这些数据集中的问题类型的多样性使得可以系统地研究问题结构、大小、问题类型、事实顺序和其他因素对LLM性能的影响。我们的研究结果为当前LLM在时间推理任务中的优缺点提供了有价值的见解。为了促进这一领域的进一步研究，我们正在开源我们实验中使用的数据集和评估框架：https://huggingface.co/datasets/baharef/ToT。
图表
解决问题

本论文旨在通过引入新的合成数据集，评估大型语言模型在时间推理任务中的表现，并系统研究问题结构、规模、问题类型、事实顺序等因素对其表现的影响。
关键思路

论文的关键思路是引入新的合成数据集，以评估大型语言模型在时间推理任务中的表现，并提供有价值的见解。
其它亮点

该论文提供了新的合成数据集和评估框架，以评估大型语言模型在时间推理任务中的表现，并提供了有价值的见解。实验设计考虑了问题结构、规模、问题类型、事实顺序等因素，为进一步研究提供了基础。数据集和评估框架已开源。
相关研究

在这个领域中，已经有一些相关的研究，如《Temporal Reasoning in Natural Language Processing》、《A Survey of Temporal Reasoning in Artificial Intelligence》等。

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

评论