- 简介FinanceBench是一种首创的测试套件,用于评估LLMs在开放式财务问答(QA)中的性能。它包括10,231个有关上市公司的问题,以及相应的答案和证据字符串。FinanceBench中的问题具有生态效度,并涵盖各种不同的情景。它们旨在明确且简单易答,以作为最低性能标准。我们在FinanceBench的150个案例样本上测试了16个最先进的模型配置(包括GPT-4-Turbo、Llama2和Claude2,以及向量存储和长上下文提示),并手动审核了它们的答案(n = 2,400)。这些案例是开源的。我们发现现有的LLMs在财务QA方面存在明显的局限性。值得注意的是,使用检索系统的GPT-4-Turbo在81%的问题上回答不正确或拒绝回答。虽然增强技术(例如使用更长的上下文窗口来提供相关证据)可以提高性能,但由于增加的延迟和无法支持更大的财务文件,它们在企业设置中不现实。我们发现,所有所检查的模型都存在弱点,例如幻觉,这限制了它们在企业中使用的适用性。
- 图表
- 解决问题本论文试图评估现有的语言模型在金融问答中的性能,并发现它们的局限性。
- 关键思路论文使用了一个名为FinanceBench的数据集进行实验评估,发现现有的语言模型在金融问答方面存在明显的局限性,如虚构等。
- 其它亮点论文使用了一个名为FinanceBench的数据集,其中包含10,231个涉及公开交易公司的问题,评估了16种最先进的语言模型配置,并手动审核了其回答。实验发现现有的语言模型在金融问答方面存在明显的局限性,如虚构等。
- 最近在这个领域中,还有一些相关的研究,如“Open-Domain Question Answering in Finance: Evaluating Transformer Language Models on Financial Statements”和“Financial Narrative Understanding with Context-Aware Hierarchical Attention Networks”。
沙发等你来抢
去评论
评论
沙发等你来抢