引言

随着大模型智能体应用场景的扩充和落地,金融行业同样迎来了一波前所未有的智能化浪潮:从宏观政策解读、行业脉络梳理,到公司基本面拆解,越来越多的金融服务与投研流程开始尝试引入基于大模型技术,以提升最终的业务效率与质量。可问题也随之而来——这些由大模型驱动的智能体,能否真的胜任真实的金融任务?在多源信息、跨步骤推理与严格合规约束下,它们的能力边界在哪里?

现实中的金融场景具有动态性、专业性与强目标导向的特征。一个“简单”的问题,往往需要跨越宏观—行业—公司多个层级。例如,“SHIBOR利率的降低如何传导到某个新能源上市公司的资产负债表?”想要回答好这个问题,既需要充分理解宏观政策的传导路径,同时也要深入理解行业监管、市场预期情况,才能最终对公司财务报表的变动方向进行有理有据的充分分析。

在实际投研工作中,还常常需要多轮交互来厘清关键信息,并结合检索证据与数值计算给出可复核的结论。单一大模型“端到端全包”的问答模式,在面对复杂的、与现实逻辑高度关联的金融问题时,容易在任务拆解、证据获取、数值严谨性上出现短板,与真实投研中的“团队分工协作”存在明显的差异,容易带来结论生成的漏洞——也就是大模型的“幻觉”。现有金融领域大模型主流的评测基准仍以知识性的考试试题、文本阅读类的传统NLP任务为主,这些任务与真实金融情境中的大模型面临的挑战相去甚远——善于做题的金融大模型不一定是擅长业务的金融智能体。

针对上述问题,我们提出了 FinTeam——一个面向金融场景的多智能体协同框架,目标是让模型像一支“投研团队”那样工作。我们的核心亮点包括:

1)FinTeam 框架:场景驱动的多智能体协作任务流。以真实金融实践中最具代表性的三大场景(宏观、行业、公司)为主线,我们设计了四个分工明确的智能体(Document Analyzer、Analyst、Accountant、Consultant),在定义的协作流程下完成信息抽取—依据检索—数值计算—解释与建议的端到端闭环。框架内置了金融知识库与工具增强机制,让结论更可验证、可追溯、可复核。

2)Agent 训练数据集:面向角色与能力的定制构造大模型微调数据。围绕四类智能体的分工与专业技能需求,我们构建了角色定制的指令数据与协作语料:为 研究员(Analyst) 引入了 Chain-of-Retrieval(CoR)构造路径;为 会计师(Accountant)增加了工具调用与计算的对齐监督;为 投资顾问(Consultant)与 文档分析师(Document Analyzer) 增强了咨询解读、术语理解与要点抽取能力。数据管线兼容主流基座与轻量微调,便于持续扩展与迁移。

3)场景化评测方案:真实可用性导向的有效性评估。我们基于真实的投资者提问构建评测集,覆盖宏观—行业—公司多层级问题;采用自动化评分 + 人类偏好的双轨评价体系,从准确性、全面性、清晰度、专业性等维度刻画系统能力,同时结合拆解/消融分析,定位多智能体协作体系与单一智能体能力对整体效果的贡献。

总的来说,FinTeam 并非是“再造一个万能的金融大模型”,而是把成熟的人类投研分工迁移到智能体世界,用协作与专业分工弥补单体模型的短板。以场景化、可验证、可扩展的方式,探索金融智能体在真实世界问题中的能力边界。接下来,我们将依次介绍 FinTeam 的框架设计与实验验证。

论文 arXiv 链接:

https://arxiv.org/abs/2507.10448

项目 GitHub 链接:

https://github.com/FudanDISC/DISC-FinLLM



FinTeam 框架:四个角色 × 三大场景,像一支“投研团队”那样分工协同

金融智能体:四个角色,分工互补

FinTeam 将复杂的金融任务划分为四个相互衔接的角色,以降低单体模型在信息获取、证据组织与数值推理上的综合难度。各角色的职责与产出边界明确,便于形成可追溯、可验证的协作链。

1、文档分析师(Document Analyzer)

面向公告、新闻与研报片段等非结构化的文本,承担信息预处理与要点抽取。其核心职责包括:复杂问题的分解、金融原始语料的结构化、实体与指标的标准化抽取(公司、财务口径、关键数值)、事件情绪的判定等。该角色以约定的模式向下游提供标准的结构化信息,在保证系统问题处理能力广泛性的同时,降低信息在智能体之间传播时的噪声与冗余


2、研究员(Analyst)

面向具体问题进行事实性资料的召回与整合。其核心能力是基于检索增强(RAG)制定检索策略,从数个具备时效性的知识库(政策文件、媒体新闻、券商研报与金融数据知识库)中召回事实依据,结合问题展开多角度分析。该角色的目标不是直接生成问题的最终回答,而是用可靠证据补充模型的外部知识降低幻觉与过时信息带来的风险;其产出为“资料包与分析结论”,作为后续数值推导与结论整合的依据。


3、会计师(Accountant)

负责金融数值数据的处理、计算与分析。其职责包括:依据宏观经济数据或报表要素,进行比率计算、增长拆解与估值测算;通过集成的工具完成表达式、方程与统计表值的运算;对计算结果进行分析与说明。该角色的目标是整个系统提升在金融数值分析上的严谨性,减少由语言模型“口算”带来的系统性误差。


4、投资顾问(Consultant)

面向读者整合前述产出,形成可理解、可执行的结论陈述和报告。其职责包括:在证据与计算结果约束下完成结论汇总,明确问题解答中的关键信息与潜在的不确定性,补充金融术语解释与风险提示并给出关注要点或行动建议。该角色确保内容在保持专业性的同时具备可读性与可用性,完成从分析到传达的“最后一环”。


通过设计四个智能体角色,最终衔接为一条清晰的协作链:信息抽取(Document Analyzer)→ 依据检索(Analyst)→ 数值计算(Accountant)→ 结论表述(Consultant),从而实现对真实专家团队的模拟。

金融场景:宏观—行业—公司三层联动

为了让我们构建的多智能体真正服务于复杂的真实金融需求,我们首先将纷繁的金融世界按照经典分析范式切分为三个层次:宏观—行业—公司。对应地,我们为每一层定义了清晰的任务边界、常用数据来源与评价目标,并据此设计出一套贴近现实投研协作的智能体工作流:由文本抽取起步,经过资料检索与多角度分析,再进入数值计算与口径对齐,最终产出面向读者的清晰结论与建议。这样的分层与协作,使系统既能覆盖自上而下的因果传导,又能在每一层取得可复核的中间产物。


1、在宏观场景中,系统关注对金融术语的理解与阐释、宏观政策的解读与经济变量(利率、通胀、就业、汇率等)的变化追踪分析

2、在行业场景中,系统刻画供需结构、监管环境、竞争格局与关键指标的波动,形成对产业链的结构化认知;

3、在公司场景中,系统深入到公司的内外部环境分析、财务健康评估与经营质量解读,结合多类型的参考资料进行定量/定性一体化分析。

三类场景并非彼此孤立;系统在充分识别与分解用户需求的基础上,沿多条推理路径自浅入深地给出回答。


公司分析为例,完整流程体现为四个角色的串联协作。首先,文档分析师(Document Analyzer)对提问进行语义解析与要素抽取,识别公司主体、时间范围、相关板块与情绪倾向。随后,研究员(Analyst)围绕问题发起事实性资料召回:基于检索增强(RAG)从政策/监管文件、权威媒体与企业数据库调取背景材料与指标,在此基础上进行基于 SWOT/PEST 框架的经营环境与企业特征分析,形成对企业综合情况的判断。当问题涉及关键数值时,会计师(Accountant) 将会介入,调用计算工具,给出利润率、ROE、资产负债率、自由现金流、估值倍数等可靠的计算结果。最后,投资顾问(Consultant)将证据与计算结果整合为面向读者的小型报告:给出主结论,指出可能的投资启示与操作建议,提示主要风险与不确定性,并提供可继续跟踪的指标与讨论方向。整条链路以“资料先行、计算到位、结论可用”为准绳,确保每一步都有出处可查、整个过程合乎逻辑与严谨性。


通过这条智能体协作任务流,系统可以在一次任务中完成自上而下的穿透:从宏观政策冲击的方向与强度判断,经过行业机制与敏感变量的过滤与放大,最终落到公司报表中的具体科目与估值因子上,给出今日投资者真正需要的完整答案。

训练数据的构建:任务驱动与角色定制

为了充分训练四个智能体所需要掌握的专业能力,我们构建了 24.1 万条指令微调训练样本。数据来源覆盖两大类:一是公开的金融 NLP 标注数据集(如 SmoothNLP、CCKS、Minds14、FiQA 等),二是未标注的真实中文财经文本(新闻、监管与政策文件、上市公司公告、研报/研究综述、投资者问答与论坛讨论等)。

整个构建流程以任务为中心,加入工具辅助进行高质量的数据构造:按目标能力设计数据路径,结合提示工程、检索增强与工具生成,确保“目标任务—数据内容—模型能力”三者对齐,为每个智能体定制其所需的训练语料,而不是用一套通用数据“混合喂养”。各个智能体训练数据统计信息如下表所示:

1、文档分析师(Document Analyzer)

面向金融领域的多类NLP任务,我们首先收集了相关工作发布的开源金融 NLP 数据,通过进行清洗、筛选与改写,使之贴合中文金融语境,并补充来自公告与新闻段落的抽取任务样本,使得最终训练样本对于潜在的中文金融文本分析任务实现更广的覆盖。

2、研究员(Analyst)

其目标是以事实性证据为依据回答问题、补全外部知识,降低幻觉风险。我们使用的 Chain-of-Retrieval(CoR)的思路,从中文新闻、政策与券商研报出发,先使用 ChatGPT 自动生成分析型问题,再用检索器从知识库召回与问题强相关的资料片段,构造问题与证据的样本对;随后引导模型在参考现有资料的情况下作答,得到最终的训练样本,使其符合真实任务情景。

3、会计师(Accountant)

围绕“会算且算准”,我们参照 Toolformer 的思路,为智能体提供了 4 类金融计算工具(表达式计算、方程求解、计数器、统计表值查询)。每个训练样本都包含行内工具调用轨迹,让模型学会在回答中“暂停—调用—写回”,并保留口径与公式,确保可复现。

4、投资顾问(Consultant)

面向整个系统的终端表达,我们一方面将 FiQA 风格的问答样本 迁移至中文语境,另一方面从中文投资论坛中挖掘真实话题并进行重写;通过 Self-chat 的路径把单轮问题扩展为多轮对话,覆盖术语科普、系统分析、操作建议与风险边界等表达要素,训练其形成清晰、稳健且可采纳的输出风格。





实验:来自真实投资者问题的场景化测试

评测设计

我们从 NGA 大时代投资论坛收集了 150 个真实的投资者问题,覆盖指标变动、资产价格、利率与政策、27 个细分行业热点以及重点公司的公告与行情波动;采用了 GPT-4o 量化评分(准确性、全面性、清晰度、专业性 4 维 1–5 分)与人类偏好评测双轨验证。   

评测问题的示例包括:

“日经涨这么多是量化宽松政策的原因吗?还差5%就摸到前高了。”

“国务院宣布新能源汽车的购置税补贴政策延长四年,这个利好能再带新能源股票上涨吗?”

“赛力斯发布重磅大新闻,说由华为全面接管问界销售体系,赛力斯值得投资吗?”

这些提问虽短,却涉及跨层级分析与事实证据依赖的复杂推理,正是国内投资者的高频关切,也是检验系统真实可用性的理想样本。


智能体训练

我们在 Qwen2.5-7B-Instruct 模型上进行了 LoRA 微调训练,训练算力资源为4张 NVIDIA V100-32G;batch size 设置为1/GPU,gradient accumulation 设置为4,等效全局批量为16;最大序列长度4096,总共训练2个 epoch;学习率设置为5×10⁻⁵,LoRA 目标设定为"all",rank 为8、alpha 为16。


主要评测结果

1、模型量化打分结果

在模型量化打分评测中,我们使用了GPT-4o作为裁判模型,对所有模型的回答从四个角度进行了1-5分的打分:准确性、全面性、清晰性、专业性。

从结果来看,FinTeam 的综合得分为4.86,优于所有基线:相对基座模型提升0.08、相对GPT-4o提升0.03、相对ChatGLM3提升0.82。在具体维度的表现上,模型在全面性专业性上提升最为显著,分别达到0.250.16,恰对应投资者最关注的“信息是否覆盖充分、论证是否专业可靠”。

2、人类偏好评估结果

在人类偏好评估中,我们邀请了金融专业本科生进行了模型匿名的偏好回复评估,即从所有回复中选出认为最好的一个。

从结果来看,FinTeam 的回答偏好率达到了62.00%;而同为金融大模型的“轩辕-13B”仅为 19.33%。这表明多智能体协作不仅带来更高的量化得分,也更贴合用户偏好:回答更全面、依据更扎实、输出更可用。


细分能力评估(智能体维度)

为了进一步评估单一智能体的在具体任务上的表现,我们设计了多个评测实验:

1、金融文本理解:在 FinCUGE 的六项金融 NLP 任务上,文档分析师(Document Analyzer)平均分 47.20,相对基座 Qwen2.5-7B-Instruct 的 39.77 提升 +7.43,显示其对金融文本细粒度理解的优势。

2、金融知识记忆:在 FinEval 上投资顾问(Consultant)准确率 68.48%,较基座 +2.06,说明其在中文金融知识上的掌握程度更好。

3、数值计算:使用公务员考试试题中的计算题进行了评估,在能够构建正确的表达式并计算出正确结果的评测上,会计师(Accountant)相对基座在计算准确性上提升0.09,验证了计算工具的引入对于智能体计算能力的提升效果。




结语

本文中,我们提出了 FinTeam:一个覆盖宏观—行业—公司三层的多智能体金融智能系统。我们将角色定制的微调智能体协作编排结合:以任务为中心构建四套训练数据,配合检索增强系统与计算工具,形成“信息抽取—依据检索—数值计算—结论表述”的协作链。基于真实投资者提问的场景化评测显示,FinTeam 在自动化指标与人类偏好上均取得稳健提升,验证了多智能体协作在真实金融任务中的有效性与可用性。


同时,我们也清醒地看到了系统的边界与下一步方向:(1)场景广度仍需扩展,例如衍生品、二级市场交易与组合/风控等更贴近实盘的任务;(2)投资风险始终客观存在,系统输出仅供研究参考,不构成投资建议,用户需结合自身风险承受能力决策;(3)当前系统主要面向中文市场与数据生态,未来还需要推进国际市场迁移与跨语种评测。后续我们将继续完善数据与工具链,并探索更高效的系统落地路径。


本论文最终荣获 NLPCC 2025 Outstanding Paper Award。会议评选规则为各领域主席(Track Chair)推选一篇最佳论文,总共11篇。由最佳论文评选委员会(Best Paper Committee)进行匿名评选,最终评选出2篇 Distinguished Paper、1篇 Best Paper 和2篇 Outstanding Paper,总共5篇获奖论文。大会今年一共获得505篇投稿,接收155篇(录取率30.1%),其中5篇论文获奖(1%)。


我们期待在未来能够把服务于金融场景的智能体系统做得更强、更稳、更可用。





END


复旦大学数据智能与社会计算实验室


Fudan DISC


联系方式:disclab@fudan.edu.cn

地址:复旦大学邯郸校区计算中心



点击“阅读原文”跳转至Github

内容中包含的图片若涉及版权问题,请及时与我们联系删除