FinBen: A Holistic Financial Benchmark for Large Language Models

2024年02月20日
  • 简介
    LLM已经改变了自然语言处理,并在各个领域显示出了潜力,但由于缺乏全面的评估基准、LLM的快速发展和金融任务的复杂性,它们在金融领域的潜力尚未得到充分的探索。本文介绍了FinBen,这是第一个包括36个数据集、涵盖24个金融任务、覆盖七个关键方面(信息提取、文本分析、问答、文本生成、风险管理、预测和决策)的广泛开源评估基准。FinBen提供了几个关键创新:更广泛的任务和数据集、股票交易的首次评估、新颖的代理和检索增强生成(RAG)评估,以及三个新颖的开源评估数据集,用于文本摘要、问答和股票交易。我们评估了15个代表性的LLM,包括GPT-4、ChatGPT和最新的Gemini,发现了几个关键发现:虽然LLM在信息提取和文本分析方面表现出色,但在高级推理和文本生成、预测等复杂任务方面表现不佳。GPT-4在信息提取和股票交易方面表现出色,而Gemini在文本生成和预测方面表现更好。针对指令进行调整的LLM改善了文本分析,但在问答等复杂任务方面的效益有限。FinBen已被用于在IJCAI-2024的FinNLP-AgentScen研讨会上举办第一次金融LLM共享任务,吸引了12个团队。他们的新颖解决方案超越了GPT-4,展示了FinBen推动金融LLM创新的潜力。所有数据集、结果和代码都已发布供研究社区使用:https://github.com/The-FinAI/PIXIU。
  • 图表
  • 解决问题
    本文试图探索金融领域中语言模型的应用潜力,但由于缺乏综合评估基准、语言模型快速发展以及金融任务的复杂性,金融领域中语言模型的潜力尚未得到充分挖掘。
  • 关键思路
    本文提出了FinBen评估基准,是第一个包含36个数据集、24个金融任务、涵盖信息提取、文本分析、问答、文本生成、风险管理、预测和决策等七个关键方面的广泛开源评估基准。FinBen的创新点包括更广泛的任务和数据集、首次对股票交易进行评估、新颖的Agent和RAG评估、以及三个新颖的文本摘要、问答和股票交易的开源评估数据集。
  • 其它亮点
    本文对15个代表性的语言模型进行了评估,包括GPT-4、ChatGPT和最新的Gemini。结果表明,语言模型在信息提取和文本分析方面表现出色,但在高级推理和复杂任务(如文本生成和预测)方面表现欠佳。GPT-4在信息提取和股票交易方面表现出色,而Gemini在文本生成和预测方面表现更好。指令调整的语言模型改善了文本分析,但在问答等复杂任务方面效果有限。FinBen已被用于在IJCAI-2024的FinNLP-AgentScen研讨会上举办第一个金融语言模型共享任务,吸引了12个团队。他们的新颖解决方案优于GPT-4,展示了FinBen推动金融语言模型创新的潜力。
  • 相关研究
    最近的相关研究主要集中在金融领域中的语言模型应用,如情感分析、事件检测、股票预测等。例如,一些相关论文包括《BERT在金融领域的应用》、《金融新闻情感分析中的深度学习方法》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论