- 简介大型语言模型(LLMs)在各种自然语言处理任务上取得了显著的表现,但它们在更具挑战性和特定于领域的任务(如金融)中的潜力尚未得到充分探索。本文介绍了CFinBench:一个经过精心设计的、迄今为止最全面的评估基准,用于评估中文环境下LLMs的金融知识。实际上,为了更好地与中国金融从业人员的职业轨迹相一致,我们从四个一级类别建立了系统评估:(1)金融学科:LLMs是否能够记忆必要的金融学科基础知识,如经济学、统计学和审计学;(2)金融资格:LLMs是否能够获得所需的金融资格认证,如注册会计师、证券从业资格和银行从业资格;(3)金融实践:LLMs是否能够完成实际的金融工作,如税务顾问、初级会计师和证券分析师;(4)金融法律:LLMs是否能够满足金融法律法规的要求,如税法、保险法和经济法。CFinBench包括99,100个问题,涵盖43个二级类别,包括单选题、多选题和判断题。我们对50个具有不同模型大小的代表性LLMs在CFinBench上进行了广泛的实验。结果表明,GPT4和一些面向中文的模型在基准测试中表现最好,最高平均准确率为60.16%,突显了CFinBench所具有的挑战性。数据集和评估代码可在https://cfinbench.github.io/上获得。
- 解决问题评估大型语言模型在中国金融领域中的表现,构建一个全面的金融知识评估基准CFinBench。
- 关键思路构建一个系统的金融知识评估基准CFinBench,从金融学科、金融资格、金融实践和金融法律四个方面对大型语言模型的金融知识进行评估。
- 其它亮点CFinBench包含99,100个问题,涵盖43个二级类别,包括单选题、多选题和判断题。50个具有不同模型大小的代表性大型语言模型在CFinBench上进行了广泛的实验。实验结果显示,GPT4和一些中文定向模型领先于基准测试,最高平均准确率为60.16%。
- 最近的相关研究主要集中在大型语言模型在自然语言处理任务中的性能提升,如GPT-3和T5等。
沙发等你来抢
去评论
评论
沙发等你来抢