Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

2024年06月13日
  • 简介
    大型语言模型(LLMs)展示了卓越的推理能力,但它们仍然容易出现错误,特别是在涉及复杂时间逻辑的时间推理任务中。现有研究已经使用不同的数据集和基准测试探究了LLM在时间推理方面的性能。然而,这些研究经常依赖于LLM可能在预训练期间遇到的真实世界数据,或者采用了可以无意中引入事实不一致的匿名化技术。在这项工作中,我们通过引入新颖的合成数据集,专门设计用于评估LLM在各种场景下的时间推理能力,解决了这些限制。这些数据集中的问题类型的多样性使得可以系统地研究问题结构、大小、问题类型、事实顺序和其他因素对LLM性能的影响。我们的研究结果为当前LLM在时间推理任务中的优缺点提供了有价值的见解。为了促进这一领域的进一步研究,我们正在开源我们实验中使用的数据集和评估框架:https://huggingface.co/datasets/baharef/ToT。
  • 图表
  • 解决问题
    本论文旨在通过引入新的合成数据集,评估大型语言模型在时间推理任务中的表现,并系统研究问题结构、规模、问题类型、事实顺序等因素对其表现的影响。
  • 关键思路
    论文的关键思路是引入新的合成数据集,以评估大型语言模型在时间推理任务中的表现,并提供有价值的见解。
  • 其它亮点
    该论文提供了新的合成数据集和评估框架,以评估大型语言模型在时间推理任务中的表现,并提供了有价值的见解。实验设计考虑了问题结构、规模、问题类型、事实顺序等因素,为进一步研究提供了基础。数据集和评估框架已开源。
  • 相关研究
    在这个领域中,已经有一些相关的研究,如《Temporal Reasoning in Natural Language Processing》、《A Survey of Temporal Reasoning in Artificial Intelligence》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论