让AI真正“读懂图表”：澜舟多模态RAG技术揭秘

在金融研报、行业分析、企业报告等场景中，大量关键信息隐藏在图表中。然而，传统RAG系统主要依赖OCR提取文本，只能“读文字”，难以理解图表中的结构与数据关系，导致问答结果不完整甚至错误。

为解决这一问题，澜舟推出面向图表理解的多模态RAG技术，实现从“读文本”到“读图表”的能力升级。在FinRAGBench-V数据集上，系统准确率从69.6%提升至90.7%，提升超过21个百分点。

从“读文本”到“读图表”：我们解决了什么问题？

传统RAG在处理文本信息时表现出色，但在面对真实世界中的复杂文档时仍存在明显局限，本质问题不在于“模型能力不足”，而在于“信息建模方式过于单一”。

具体表现为：

缺乏对图表的结构化语义建模能力，无法有效抽取关键数据、图表类型及语义信息；

检索机制单一，缺乏对图表内容与文本上下文的联合建模，难以精准召回图表级证据；

图表理解依赖“看图即答”，缺乏基于图像操作的多步推理能力，复杂场景下易出错；

答案生成仅依赖文本，缺乏图文融合表达，结果可读性与可验证性不足。

为此，澜舟提出面向图表理解的多模态RAG技术，将系统能力从“文本检索”升级为“跨模态理解与推理”，并将核心能力统一抽象为“建模-检索-推理-生成”的四阶段闭环，重点实现以下四个核心能力跃迁：

1. 图表语义建模：从“非结构化图像”到“结构化语义表示”

基于视觉语言模型与多模板驱动机制，对图表进行细粒度解析，抽取关键数据、趋势关系及元信息（如图表类型、坐标语义等），构建统一的结构化图表语义表示。

2. 跨模态检索：从“单通道文本检索”到“图文融合检索”

融合文档级检索与图文检索机制，引入视觉语言模型进行跨模态相关性建模与证据筛选，实现图表内容与文本上下文的联合召回与精排。

3. 图表推理增强：从“看图即答”到“基于图像操作的多步推理”

引入Thinking-with-images推理范式，通过图像裁剪、缩放等可执行操作，逐步完成复杂图表中的数据定位、关系分析与数值推断，提升复杂场景下的推理准确性。

4. 图文融合生成：从“单一文本生成”到“图文协同表达”

融合图表证据、图像内容与文本上下文进行统一生成，在答案中动态插入图表内容，实现图文交织的表达形式，提升结果的可读性与可验证性。

整体能力框架：四大核心能力

澜舟的多模态RAG系统在离线阶段完成图表语义建模与索引构建，在在线阶段依次执行跨模态检索、推理增强与图文融合生成，形成完整的多模态问答闭环。

具体流程如下：

离线阶段（数据构建）

文档解析（基础能力）：从PDF中解析出文本和表格的内容，识别出图像与矢量图表的位置坐标，导出为点位图入库。
图表语义建模：抽取图表的结构化语义信息（如图表类型、关键数据、趋势关系及上下文语义），形成图表的摘要。
切片：将文本段落与图表按照层级树进行组织，将全文按照层级进行切片，作为最小可检索粒度。
向量化存储：对分片和图表摘要分别进行向量化表示，写入向量数据库，支持跨模态检索。

在线阶段（问答推理）

跨模态检索：联合文档级检索与图文检索，召回相关文本与图表内容，基于视觉语言模型对召回的图表做进一步筛选。
图表推理增强：通过图像操作与多步推理机制，抽取支撑回答的关键证据。
图文融合生成：融合图表证据与文本上下文，生成图文交织的最终答案。

核心技术亮点

图表语义建模

在离线阶段完成图表区域的识别与定位，并构建图表图像及其上下文信息。基于视觉语言模型（VLM）对图表进行结构化语义建模，统一抽取关键数据、趋势关系及元信息，显著提升多模态问答对图表内容的理解能力。

具体而言，图表语义建模能力可以从多模态信息抽取、多模板驱动以及多图对照与上下文增强三个方面实现：

多模态信息抽取：将裁剪得到的图表图像及其上下文（标题、图注、段落）输入视觉语言模型（VLM），联合建模图像与文本信息。自动抽取图表中的关键数据（数值、趋势）、元信息（图表类型、坐标轴含义）及语义，生成格式化的描述。

多模板驱动：针对不同图表类型（如柱状图、折线图、饼图等），设计专属 Prompt 模板，引导模型聚焦对应的结构特征与信息要素。

多图对照与上下文增强：引入多视角对照机制：一方面将裁剪图与整页图进行对齐，补偿文档解析中可能存在的区域截断问题；另一方面对相似图表进行对比建模，增强模型对细粒度差异的辨识能力。

跨模态检索

传统检索方式存在一定局限：仅采用文档级检索会对整段内容进行统一建模，图表信息容易被淹没在大量文本中；而仅依赖图文检索则只关注图表本身，对上下文与文档语义利用不足，且对相似图表的区分能力有限。为此提出融合式跨模态检索策略，兼顾全局语义与图表细粒度信息。

文档级检索与图文检索融合策略：同时引入文档级检索与图文检索两种机制，对候选结果进行联合建模与打分融合。文档级检索负责从全量内容中定位相关段落，提供上下文语义约束；图文检索聚焦图表内容，强化对视觉信息的匹配能力。通过融合两者得分，实现对相关段落的更准确召回与排序。
基于VLM的相关性判定与证据提取：在检索之后，引入视觉语言模型对候选图表进行细粒度相关性判定，结合用户查询与图表内容进行语义对齐，过滤掉语义相似但与问题无关的图表。对于判定为相关的图表，进一步从中抽取能够支撑回答的问题证据（如关键数据点、趋势描述、对比关系等），并结合上下文进行整理，供后续大模型进行最终答案生成。

检索效果展示，Recall@k表示检索topk图表的召回率，Acc表示相关性判定后保留的图表准确率：

图表推理增强

在图表信息挖掘与证据提取阶段，“读图即答”难度高、易出错，引入基于图像操作的推理增强机制，提升复杂图表中关键信息抽取的准确性：

基于图像交互的推理方式：针对复杂图表中元素定位与数值读取困难的问题，不再依赖一次性读图或纯文本推理，而是引入Thinking-with-images的多步推理方式。在证据提取过程中，模型通过逐步分析图表结构，完成区域定位、关系判断与关键数据识别。

可执行图像操作与工具调用：在沙盒环境中运行 Python 代码，对图像进行缩放、裁剪、切分及绘制辅助线等操作，辅助模型精确定位目标区域并读取数值信息。通过“生成代码—执行—输出图片—反馈”的方式，将图像操作纳入推理链路，降低数值估算误差。

推理能力训练（SFT + RL）：通过监督微调与强化学习相结合的方式，训练模型在多步推理过程中合理调用图像操作工具，学习稳定的分析路径与错误纠正策略。重点提升模型在复杂图表场景下的逐步推理能力与结果可靠性。

图文融合生成

基于检索与证据抽取结果，构建图文融合的答案生成机制：

多源信息融合生成：将图表中提取出的证据、相关图片，以及检索得到的文本段落一并输入大模型进行统一生成。模型在生成过程中同时利用图像信息与文本上下文，对问题进行综合推理，输出完整答案。

图文交织表达：在生成答案时，根据内容引用位置，将对应的图表图片以链接形式插入到文本中，实现图文交织展示。图片通常出现在相关论述或数据解释处，使答案既包含文字说明，又保留图表作为直观支撑。

效果评测

对系统在图表理解与多模态问答场景下的能力进行系统性评估，涵盖数据构建与结果评判两个方面：

评测数据集

采用 FinRAGBench-V 作为基础数据集，该数据集为面向多模态检索增强生成（RAG）的 benchmark。选取其中中文图表相关子集，问题类型覆盖图表信息提取、图表数值计算以及图表时效性查询。在此基础上，针对流程图、架构图等非结构化图形，人工构建补充测试样本，扩展数据覆盖范围。最终形成包含 270 条样本的评测集。

评估标准

采用基于大模型的三分量表（0–2 分）进行自动评估，其中 2 分表示回答完全正确。具体评分标准如下：

• 2 分（正确）：最终答案与标准答案一致，关键事实完整且准确，不包含影响结论的错误信息。

• 1 分（部分正确）：回答存在一定偏差，但整体接近正确结论，包含以下情况之一：

￮仅覆盖部分关键事实；

￮结论方向基本正确，但关键细节存在偏差；

￮在非严格数值场景下，数值、时间、对象、排序或比较关系存在轻微误差；

￮表达不够精确，无法完全确认与标准答案一致。

• 0 分（错误）：回答错误、矛盾或无法判定为正确，包含以下情况之一：

￮最终结论与标准答案不一致；

￮关键事实错误；

￮在严格数值场景下，数值、比例、百分比、排名、日期或数量不一致；

￮存在编造信息或无依据推断；

￮未回答问题或回答内容与问题无关。

当前效果

提升幅度：准确率（2 分）从 69.63% 提升至 90.74%（+21.11pp），提升幅度明显。

应用场景

多模态问答技术可广泛应用于以下场景：

1. 金融研报分析

￮自动解读图表趋势

￮辅助投资决策

2. 企业知识库（如澜舟智库）

￮支持图文混合问答

￮提升知识检索准确率

3. 政策/行业报告解读

￮自动提取关键数据

￮生成分析结论

案例展示

为直观展示多模态RAG在复杂图表场景下的能力，我们选取澜舟智库中的典型问答案例进行说明。

案例一：复杂图表趋势分析

用户问题：

2018年至2023年期间，国有六大行的定期存款占比变化趋势是什么？

系统能力展示：

系统从研报中自动定位相关图表，并结合文本与图表信息进行综合分析，给出结论：

• 文本信息表明：2023年定期存款占比约为58.0%，较上年提升约7.5个百分点，且首次整体超过50%

• 图表信息进一步验证：自2018年以来，各年份占比呈持续上升趋势

系统通过融合文本结论与图表趋势，实现对数据变化的完整理解与交叉验证。

案例二：时间序列走势判断

用户问题：

从2020年3月到2020年12月，中证全指指数的整体走势是上升还是下降？

系统能力展示：

系统定位到对应折线图，并分析得出：

• 指数在2020年3月底触及低点（约850点）

• 此后持续震荡上行，至年底接近1700点

• 整体趋势为明显上升

在该类问题中，模型不仅需要“看图”，还需要进行时间序列分析与趋势判断。

总结与展望

澜舟多模态RAG技术，通过图表解析、语义理解、跨模态检索与可执行推理等关键创新，实现了AI从“读文本”到“读图表”的能力跃迁，让AI不仅能“看见”，更能“理解”和“推理”。

未来，多模态技术将进一步向更强的结构化理解与跨模态对齐能力发展，包括更精细的图表解析、更高效的多模态检索与推理机制，以及统一的端到端模型架构，以减少人工规则与模块间误差传递，提升系统在复杂真实文档场景下的泛化能力与稳定性。

扫码即可体验

澜舟智库多模态RAG能力

往期文章推荐

客户案例｜大模型驱动下的澜舟智能投研解决方案高效实践

”

澜舟科技官方网站

https://langboat.com

澜舟科技公众号

期待您的关注!

内容中包含的图片若涉及版权问题，请及时与我们联系删除

让AI真正“读懂图表”：澜舟多模态RAG技术揭秘

评论列表

评论