Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models

向作者提问

NEW

简介

随着大型语言模型在金融领域的应用日益广泛，迫切需要一种标准化的方法来全面评估其性能。然而，现有的金融基准测试往往存在语言和任务覆盖范围有限的问题，同时还面临着数据集质量低劣和对大型语言模型评估适应性不足等挑战。为了解决这些问题，我们提出了“金石”（Golden Touchstone），这是第一个全面的双语金融大型语言模型基准测试，涵盖了中文和英文的八个核心金融自然语言处理任务的代表性数据集。该基准测试基于广泛的开源数据收集和行业特定需求开发，包括多种金融任务，旨在全面评估模型的语言理解和生成能力。通过对主要模型（如GPT-4、Llama-3、FinGPT和FinMA）在该基准测试上的比较分析，我们揭示了它们在处理复杂金融信息方面的优势和局限性。此外，我们开源了Touchstone-GPT，这是一种通过持续预训练和金融指令调优训练的金融大型语言模型，它在双语基准测试中表现出色，但在某些特定任务上仍有局限。这项研究不仅为金融大型语言模型提供了一个实用的评估工具，还指导了未来研究的发展和优化。金石的源代码和Touchstone-GPT的模型权重已公开发布在 \url{https://github.com/IDEA-FinAI/Golden-Touchstone}，为金融大型语言模型的持续发展做出了贡献，并促进了这一关键领域内的进一步研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决金融领域大型语言模型（FinLLMs）评估标准不统一和现有基准测试方法存在局限性的问题，如语言和任务覆盖范围有限、数据质量低及适应性差等。
关键思路

论文提出了首个全面的双语金融LLM基准——'Golden Touchstone'，涵盖了中英文八项核心金融NLP任务，通过从大量开源数据和行业需求出发构建代表性数据集，为评估模型的语言理解和生成能力提供了新的方法。
其它亮点

1. 'Golden Touchstone' 基准不仅包括多样化的金融任务，还针对主要模型进行了对比分析，揭示了它们在处理复杂金融信息时的优势与不足。 2. 开源了 Touchstone-GPT 模型及其训练代码，为后续研究提供了基础资源。 3. 实验设计详尽，使用了高质量的数据集，并公开了所有资源，促进了领域内的透明度和可重复性。
相关研究

近期在金融LLM领域，相关研究包括： 1. 'FinBERT: A Pre-trained Language Model for Financial Text Mining' - 提出了专门针对金融文本挖掘的预训练模型。 2. 'Evaluating Large Language Models Trained on Financial Data' - 探讨了在金融数据上训练的大型语言模型的性能评估方法。 3. 'Financial Sentiment Analysis Using Deep Learning Techniques' - 研究了深度学习技术在金融情感分析中的应用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问