- 简介大型语言模型(LLMs)展示了卓越的推理能力,但它们仍然容易出现错误,特别是在涉及复杂时间逻辑的时间推理任务中。现有研究已经使用不同的数据集和基准测试探究了LLM在时间推理方面的性能。然而,这些研究经常依赖于LLM可能在预训练期间遇到的真实世界数据,或者采用了可以无意中引入事实不一致的匿名化技术。在这项工作中,我们通过引入新颖的合成数据集,专门设计用于评估LLM在各种场景下的时间推理能力,解决了这些限制。这些数据集中的问题类型的多样性使得可以系统地研究问题结构、大小、问题类型、事实顺序和其他因素对LLM性能的影响。我们的研究结果为当前LLM在时间推理任务中的优缺点提供了有价值的见解。为了促进这一领域的进一步研究,我们正在开源我们实验中使用的数据集和评估框架:https://huggingface.co/datasets/baharef/ToT。
- 图表
- 解决问题本论文旨在通过引入新的合成数据集,评估大型语言模型在时间推理任务中的表现,并系统研究问题结构、规模、问题类型、事实顺序等因素对其表现的影响。
- 关键思路论文的关键思路是引入新的合成数据集,以评估大型语言模型在时间推理任务中的表现,并提供有价值的见解。
- 其它亮点该论文提供了新的合成数据集和评估框架,以评估大型语言模型在时间推理任务中的表现,并提供了有价值的见解。实验设计考虑了问题结构、规模、问题类型、事实顺序等因素,为进一步研究提供了基础。数据集和评估框架已开源。
- 在这个领域中,已经有一些相关的研究,如《Temporal Reasoning in Natural Language Processing》、《A Survey of Temporal Reasoning in Artificial Intelligence》等。
沙发等你来抢
去评论
评论
沙发等你来抢