澜舟可信智能体技术解析：突破大模型“幻觉”的工程化实践

当大模型从“能回答”走向“可托付”，真正的难点是在复杂业务材料中找到依据、识别边界、拒绝臆测，并把推理过程交给可验证的工程链路。

背景：企业级智能体为什么绕不开“可信”

过去一年，大模型智能体在企业场景中的落地速度明显加快。从知识问答、合同审阅，到财报分析、政策解读、投研辅助，越来越多的业务团队开始把 AI 接入真实工作流。但越接近核心业务，大家越容易遇到同一个问题：模型很聪明，却不一定可靠。

在开放问答或创意写作中，模型“合理发挥”有时可以被接受，但在金融分析、合同审计、招投标审查、企业知识库问答等场景中，一个数字看错、一个条款编造都可能造成复核成本上升，影响业务决策。比如在处理财报 PDF 时，通用大模型可能把原文档中的“-2.3%”误读成“23.4%”；在合同审查中，文档里并没有某项违约责任，模型却根据内部知识补出一段看似合理的条款说明；在制度问答中，员工问“这个费用能不能报销”，模型如果没有检索到明确依据却强行回答，就会把“知识助手”变成新的风险源。

这类问题背后的核心矛盾是：企业需要的是基于证据的可靠回答，而通用大模型天然更擅长基于语言模式的生成。因此，澜舟在可信智能体建设中关注的不单是模型参数规模，还有围绕三个问题做工程化增强：

1. 不知道时能不能拒答：文档中没有答案时，模型是否能明确说“没有相关信息”。

2. 复杂材料能不能读准：面对长文档、扫描件、表格、图表、跨页信息时，模型能否保持结构理解能力。

3. 推理结果能不能验证：涉及计算、比较、筛选、引用时，模型能否合理调用工具并留下可复核依据。

这也是本文要讨论的重点：澜舟可信智能体如何通过拒识机制、上下文工程、表格推理、工具调用和评测闭环，把“减少幻觉”从一个模型能力问题，变成一套可落地、可评估、可持续迭代的工程体系。

设计思路：让系统会查、会算、会拒绝

在很多企业应用中，幻觉是系统链路共同造成的结果。文档解析不准，检索召回偏了；上下文太长太乱，模型抓不到关键证据；问题本身超出资料范围，但系统没有拒绝回答；表格计算交给大模型算，结果自然不稳定。因此，澜舟可信智能体的设计思路可以概括为一句话：把大模型放在一个有边界、有证据、有工具的系统里。

从“直接问模型”到“证据驱动回答”

传统问答链路往往是：用户提问 → 检索若干片段 → 大模型生成答案。这个流程简单，但在复杂业务场景中很容易出问题。比如检索片段中只有相似表述，却没有真正答案，模型仍然可能根据上下文“脑补”；再比如表格被切片后丢失行列关系，模型看到了数字，却不知道数字属于哪一列。我们的思路是在生成之前增加多层判断：

先判断问题是否能在文档中找到足够证据；
再判断证据是否完整、是否存在冲突；
对需要计算的问题，交给 Python 等工具执行；
最后再由模型组织自然语言答案，并返回依据。

系统要先把材料处理成模型能读懂、能引用、能计算的上下文，让模型成为可信链路中的“推理与表达节点”。

可信智能体的四层能力框架

澜舟可信智能体可以抽象地拆成四层能力：

这个框架的好处是，它把“可信”拆解成多个可优化环节，只要每一层都有明确的输入、输出和评测指标，整个智能体就能持续迭代。

能力建设一：

拒识机制，让模型学会说“不知道”

大模型幻觉最典型的表现，是在资料中没有答案时仍然给出一个自信答案。对企业知识库来说，这一点尤其危险。因为用户往往会默认“系统回答了，就说明有依据”。

澜舟可信智能体首先强化的就是拒识能力。所谓拒识，是让系统能够区分三类情况：

有明确答案：文档中存在直接依据，可以回答并引用来源；
有相关信息但不足以回答：文档提到了相近概念，但缺少关键条件，需要提示用户信息不足；
没有相关依据：文档中没有答案，应明确拒答，避免编造。

陷阱题测试：专门考察“相似但无答案”

在自建的 100 条陷阱题测试集中，问题与文档内容高度相似，但文档中实际没有对应答案。这类问题比普通无关问题更难，因为它会诱导模型根据相似语义进行补全。

在该测试集中，澜舟智能体的拒识准确率达到 90%，能够较稳定地返回“文档中没有相关信息”的提示。这说明系统不仅能检索相似内容，还能进一步判断“相似内容是否足以支撑回答”。这个例子能直观体现可信智能体的价值：

幻觉检测：从结果层面做一致性校验

除了前置拒识，澜舟还在幻觉检测上进行了专项评测。在 11 个公开幻觉检测数据集中，澜舟问答智能体整体达到或超过现有 SOTA 水平。其中：

更值得关注的是自建高难度拒识集。该数据集包含 76 条极易混淆的上下文样本，问题与上下文边界非常接近，考察的是模型在模糊场景下的判别能力。

虽然绝对准确率仍有提升空间，但在极端混淆场景中，澜舟智能体相对通用模型已经实现倍数级领先。这也说明，可信智能体需要专门数据、评测和链路。

能力建设二：

表格推理与工具调用，让复杂计算可验证

在企业知识中，最难处理是表格。财报里有合并报表、同比环比、分业务收入；合同里有付款节点、违约金比例、服务期限；库存系统里有 SKU、区域、批次、周转率。用户会问：

哪个区域的同比增速最高？
剔除异常项后，平均毛利率是多少？
这份合同的付款比例是否超过制度上限？
A 类商品中库存周转天数超过 30 天的有多少？

这类问题涉及多步计算、跨单元格比对、条件筛选和聚合统计。让 LLM 直接“心算”，很容易不稳定。因此澜舟采用“基础 TableQA + Python 工具增强”的策略。

基础 TableQA：让模型读懂二维结构

在 233 条自建表格推理数据集中，澜舟问答智能体取得了 76.82% 的准确率。相比同等参数量通用大模型通常 65%—72% 的表现，这说明模型已经具备较强的表格理解能力。

这一步解决的是“读懂表格”的问题，包括：

识别表头、行名、合并单元格；
理解跨页表格的连续关系；
保留数值、单位、百分号、负号等关键信息；
将自然语言问题映射到对应行列。

Python 工具增强：把计算交给确定性工具

当问题进入复杂计算阶段，可信智能体会自动生成并执行 Python 代码，将计算过程交给解释器完成。工具增强后，表格推理准确率提升至 90.13%。系统把任务拆成了更可靠的流程：

1. 模型定位相关表格和字段；

2. 将表格转成结构化数据；

3. 生成计算逻辑；

4. Python 执行并返回结果；

5. 模型基于执行结果组织答案，并保留关键依据。

对于财报分析、经营看板、库存盘点等场景，模型负责理解意图和组织表达，工具负责确定性计算，二者协同降低了幻觉和算错的概率。

能力建设三：上下文工程，把复杂文档变成模型可理解的证据

“幻觉”出现的原因中，输入给模型的上下文质量太差往往是主要的。例如，一份 PDF 在解析后可能丢失标题层级；一个跨页表格被拆成多个无上下文片段；图表下方的注释与图表本体分离；脚注、单位、统计口径被遗漏。这些问题都会导致模型拿到“看似相关但不完整”的材料，最终输出不可靠答案。

我们在 Context Engineering（上下文工程）中重点优化三类信息。

结构增强：保留文档的层级与边界

对于企业文档来说，标题、章节、列表、表格边界是语义的一部分。澜舟在 PDF 等非结构化文档解析中，会强化：

标题与正文的从属关系；
列表项之间的并列关系；
表格行列边界和单位；
图表说明、脚注、来源注释；
跨页内容的连续关系。

让模型看到一组带结构的证据，而不只是简单的文本切片。

推理增强：把复杂问题拆成可验证步骤

对于需要多步推理的问题，系统会引导模型采用“数据定位 → 逻辑计算 → 结果比对 → 答案生成”的链路。

比如用户问：“2023 年华东区收入增长是否主要来自新客户？”系统需要先定位华东区收入，再查找新老客户拆分，再计算贡献占比，最后判断“主要来自”是否成立。这个过程如果直接生成，风险很高；如果拆成步骤，就能逐步校验。

工具协议：让智能体稳定调度外部能力

澜舟还通过标准化插件协议，让智能体能够稳定调用 Python 沙箱、外部检索、数据库查询等工具。对企业智能体来说，工具调用是可信输出的必要组成部分。

真实业务场景：

澜舟智库与行业解决方案中的应用

可信智能体的价值，最终要回到业务场景中验证。结合澜舟智库及企业知识服务场景，可以从三个方向理解其应用价值。

澜舟智库：从“搜资料”到“带依据的知识问答”

澜舟智库面向企业内部知识管理场景，典型数据包括制度文件、行业报告、产品手册、会议纪要、项目文档、客户材料等。过去，用户需要自己搜索、打开文件、定位段落、人工总结。可信智能体接入后，用户可以直接提出业务问题，系统返回带依据的答案。

例如：

销售问：“某行业客户最关心的合规能力有哪些？”
解决方案顾问问：“这个项目是否有可复用的历史标书模板？”
管理者问：“过去几个季度客户反馈中，高频问题集中在哪些模块？”
新员工问：“差旅报销中住宿标准是多少？”

在这些场景中，系统要答得出来，还要回答依据在哪里。拒识机制能避免资料不足时强行回答；上下文工程能提升长文档检索质量；工具调用能支持统计类问题。

合同与标书审查：让风险识别更可控

合同、标书和制度审查是可信智能体非常适合落地的场景。原因在于这类任务具备三个特点：文本长、规则多、风险高。

澜舟可信智能体可以帮助业务人员完成：
非标条款识别；
付款、违约、交付、验收等关键条款抽取；
与公司制度或历史模板进行比对；
找出潜在冲突、缺失条款或异常承诺；
生成审查摘要并引用原文位置。

这里尤其需要拒识能力。比如合同没有约定自动续约，系统不能根据常见合同模板补出自动续约条款；标书没有明确评分细则，系统也不能凭经验猜测权重。

金融与经营分析：让报表问答从“能看”走向“能算”

在财报、经营报表、库存报表等场景中，可信智能体的核心价值在于“读表 + 计算 + 解释”。

它可以辅助完成：

财务指标提取与同比环比计算；
多业务线收入、成本、毛利率对比；
异常波动定位；
库存周转、区域销量、产品结构分析；
生成带计算依据的分析结论。

与普通文本问答不同，这类场景必须引入工具执行。澜舟将 Python 沙箱纳入推理链路后，可以显著提升复杂表格推理准确率，也让计算过程更容易复核。

总结和展望：可信智能体的下一步，是从“回答正确”到“过程可信”

从评测结果看，澜舟可信智能体在多个关键指标上取得了明显提升：

这些结果说明，企业级可信智能体的提升来自于系统化组合：

用拒识机制控制回答边界；
用幻觉检测评估事实一致性；
用上下文工程提升证据质量；
用混合 SFT 强化垂直能力；
用 Python 工具补齐复杂计算短板；
用自建高难度评测集持续暴露问题。

大模型应用进入企业之后，竞争焦点正在从“模型能不能回答”转向“回答能不能被信任”。这背后更多的是工程问题、数据问题、评测问题和产品问题。

澜舟可信智能体的实践表明，在金融、合同、标书、知识库等垂直场景中，更可行的路径是围绕业务风险点建设专项数据，围绕证据链优化上下文工程，围绕复杂计算接入确定性工具，围绕真实场景建立持续评测闭环。

未来，可信智能体还可以继续向三个方向演进：

1.更强的多模态理解：不仅能读文本和表格，还能理解图表、扫描件、流程图、票据、页面截图等复杂材料。

2.更细的证据追溯：答案能定位到页码、段落、表格单元格和计算过程。

3.更深的业务闭环：把用户反馈、人工复核结果、线上错误案例反向沉淀为训练和评测数据，让系统越用越可靠。

当智能体能够做到“有依据才回答、无依据会拒绝、复杂问题会调用工具、关键结论可追溯”，它才真正具备进入企业核心流程的条件。

关于澜舟科技

ABOUT

北京澜舟科技有限公司成立于2021年6月，孵化于创新工场，是中国最早以大模型为创业目标的企业之一，深耕认知智能领域，以全栈自研的孟子大模型为核心，基于可信智能体核心技术体系，构建起覆盖 LangClaw 企业智能体OS及智库、智会、智搭等产品的完整体系。

往期文章推荐

真正零幻觉，澜舟智库2026春季产品大焕新，全面升级

客户案例｜大模型驱动下的澜舟智能投研解决方案高效实践

”

澜舟科技官方网站

https://langboat.com

澜舟科技公众号

期待您的关注!

内容中包含的图片若涉及版权问题，请及时与我们联系删除

澜舟可信智能体技术解析：突破大模型“幻觉”的工程化实践

评论列表

评论