FinTextQA: A Dataset for Long-form Financial Question Answering

2024年05月16日
  • 简介
    精确评估金融问答(QA)系统需要一个包含各种问题类型和上下文的全面数据集。然而,当前的金融QA数据集缺乏范围多样性和问题复杂性。本文介绍了FinTextQA,这是一个用于金融长篇问答(LFQA)的新型数据集。FinTextQA包括1,262个高质量的、来源可追溯的QA对,这些对从金融教科书和政府机构网站中提取和选择而来。此外,我们开发了一个检索增强生成(RAG)的LFQA系统,包括嵌入器、检索器、重新排序器和生成器。我们采用多方面的评估方法,包括人工排名、自动指标和GPT-4评分,来评估在噪声条件下不同LFQA系统配置的性能。结果表明:(1)在所有比较的生成器中,Baichuan2-7B的准确度得分与GPT-3.5-turbo相当;(2)我们数据集上最有效的系统配置涉及将嵌入器、检索器、重新排序器和生成器分别设置为Ada2、自动合并检索、Bge-Reranker-Base和Baichuan2-7B;(3)在上下文长度达到特定阈值后,模型对噪声的敏感性降低。
  • 图表
  • 解决问题
    论文介绍了一个新的长篇问题回答数据集FinTextQA,并提出了一个Retrieval-Augmented Generation(RAG)系统来回答这个数据集中的问题。作者试图解决当前金融领域QA数据集缺乏多样性和复杂性的问题。
  • 关键思路
    论文的关键思路是使用FinTextQA数据集,结合RAG系统来回答金融领域的长篇问题。
  • 其它亮点
    论文使用了人工评分、自动评估和GPT-4评分等多种方法来评估RAG系统的性能。作者发现,Baichuan2-7B的生成器在准确性得分方面与GPT-3.5-turbo相当。此外,作者还发现,将嵌入器、检索器、重排序器和生成器设置为Ada2、Automated Merged Retrieval、Bge-Reranker-Base和Baichuan2-7B等配置是最有效的。此外,作者还发现,在文本长度达到特定阈值后,模型对噪声的抗干扰能力会提高。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:《A Survey on Question Answering in Finance》、《Financial Question Answering with Multi-Modal Contextualized Hierarchical Attention Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论