大模型落地的一些前沿观点：兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发

今天是2023年9月4日，星期一，北京，阴天，新的一周开始了。

天已经入秋，早上骑车已经有露水降下来，北方的朋友注意早晚别着凉。

周末看到几个篇文章，地址https://twitter.com/FinanceYF5/status/1697735239160959455，https://mp.weixin.qq.com/s/-uCVv5SOLoZUATvqiTsdoA，https://mp.weixin.qq.com/s/x6rfj1zZYFeg5RVrvAkLdQ其中有些观点很有趣，引用其中的五点给大家一起看看：

1、Infra（硬件底层）团队必须比 Modelling（模型）团队还要强大。做过大模型 Infra 的人比做大模型的人还要贵、更稀缺；而会做 Scaling Law（扩展定律，模型能力随着训练计算量增加而提升）的人比会做大模型 Infra 的人更稀缺。【归根结底，大模型的基建比算法更为重要，本质就是数据+工程】9

2、读通论文也会少走很多弯路，因为有些论文是故意把不奏效的东西写出来，不会读很容易被带偏。【所以这也是我们读论文时需要注意的点】，此外，尽管在跟 GPT-3、GPT3.5 等 SOTA（state of the art，先进）模型的各种评比中，Llama2 的差距不大。但实际上用起来，今天 Llama2 的能力跟 GPT-4，以及 Bard（谷歌的大语言模型）的下一个版本，差别巨大。【这其实是片面性评估带来的问题】

3、当技术换代或者更强的开源模型出来，过去的投入可能完全「打水漂」。【但我们需要follow住，常抬头看看】

4、很多原先想做「最好大模型」的企业，其实需要重新思考创业的生态位，选择拥抱开源，在开源的底座上做「为我所用」的东西。基于开源模型做，后续的投入门槛并不低，能力要求也不低，用开源只是有效降低了冷启动的成本，对创业者这并不丢人。【这是一门经济学，现在大模型纠结的就是ROI】

5、真正去跟 B 端客户谈，客户只需要语言理解、多轮对话和一定的推理能力，其他的 AGI（通用人工智能）能力一概不要。甚至其他能力反而给客户带来了麻烦。一个通用的大模型，并不意味着可以解决所有问题。B 端客户的很多场景，通用大模型放上去并不奏效。AI Agent 这个方向还需要探索。Agent 怎么样比 ChatGPT 解决了更多问题，很难被讲清楚。【这是B端落地的一个痛点】

这些都值得我们去思考，而回到正题，我们再看看看大模型技术层面以及模型榜单上的一些事。

本文主要介绍基于知识图谱进行大模型问答以及任务编排、CEVAL榜单评测中能够得到一些启示，供大家一起参考。

一、基于知识图谱进行大模型问答以及任务编排

1、基于知识图谱增强大模型的文档问答

基于知识图谱增强大模型的文档问答路线如下：

首先，离线部分，对文档进行预处理，构建段落级索引，包括全文索引和向量索引；

其次，在线部分，在意图识别阶段，用知识图谱进行实体别称补全和上下位推理；在Prompt组装阶段，从知识图谱中查询背景知识放入上下文；在结果封装阶段，用知识图谱进行知识修正和知识溯源。

2、大模型+知识图谱实现可控可信可靠问答的架构

如下图所示，结合大语言模和向量检索的外挂能力，将自然语言交互和知识图谱结合，形成可控、可信、可靠的问答。

值得注意的是，其中关于知识确认的环节，用来对查询、生成后两个阶段进行约束。

3、利用知识图谱进行大模型执行逻辑编排

利用知识图谱进行任务流程编排，尤其是针对任务链场景。其核心在于，可以事先利用图谱地结构将各个部分之间的逻辑依存关系进行存储，例如顺序执行Chain，关于这块，也有人会扯上事理图谱地概念。

4、加入文档智能的问答闭环方案

加入文档智能的问答闭环方案，将文档智能提升到一个较高的位置，可以先通过文档智能进行处理，将表格、图表等进行处理。

例如，其中的文档布局解析最为重要，一般的流程是先用一个版面分析模型来检测出扫描图片中每一块的含义，比如某一块是文本段（text），某一块是公式（Equation）等；然后再利用其他模型去单独识别每一块中的内容。

而当前，关于这块已经出现了一批优秀的开源项目，比如专门可以用来识别数学公式的开源项目：Nougat:

https://facebookresearch.github.io/nougat/

因为数学公式和表格在 markdown 里都可以用纯文本表示，其输入是单页 pdf 转成的图片，输出是这页pdf对应的 markdown（MMD，Mathpix MD）格式的纯文本序列。

有趣的是，在训练数据收集阶段，根据PDF文件中的分页符拆分Markdown格式，收集来自arxiv、PubMed Central等平台的科学论文PDF数据集，以及LaTeX源代码，共超过800万页，具体来说，研究人员页面栅格化为图像以创建最终的配对数据集。

二、CEVAL榜单评测中能够得到一些启示

最近在跟进大模型榜单打榜的工作，而周末一过，在ceval榜单上，GPT4也即将跌出前十。

这个榜单似乎已经彻底玩坏，在某种程度上，似乎没有了参考价值？但这并不重要，理解其背后一些有意思的结论更有趣。

Ceval官方github地址：https://github.com/SJTU-LIT/ceval/blob/main/resources/tutorial.md针对该评测有一些很有趣的点，本文引用写出来，与大家一起分享：

首先，在评测prompt构造方面，存在如下四种不同的格式：

其中，few-shot chain-of-thought上，一般 CoT 在模型超过 65B 之后才会显著有效。除此之外，在Decoding策略，fewshot好还是zeroshot好等也给出了一些参考的结论，如下：

1、Decoding的方法

测试的时候一般temperature设置为0做greedydecoding，因为这种variance低；
大模型一般不用beamsearch，贵且作用不大；
上线一般用sampling，因为用户友好，说错了可以再说一遍。

2、以few-shot为准还是以zero-shot为准？

一般来说，pretraining阶段的模型few-shot的效果总是会比zero-shot好一些，但是经过instruction tuning之后的模型，且instruction tuning没有few-shotdata的话，很可能zero-shot会更好；
Few-shot是面向开发者的，因为在构造基于LLM的应用的时候，开发者总是希望用prompt engineering的方法进一步提升模型的效果，
在这种情况下，模型相当于一个操作系统；
Zero-shot是面向用户的，因为用户没工夫写prompt，
在这种情况下，模型相当于一个Chatbot；
建议开发两个版本，一个面向开发者，把in-context learning的能力拉满，另一个面向用户，把zero-shot的能力拉满。

3、是否需要做prompt engineering

对于pretrained checkpoint(没有经过instruction tuning)

prompt的不同会得到很不同的效果；
给定了default prompt，这个prompt不一定是最优的；
在实际操作的过程中，需要区分分数的提高是来自于模型的提升还是来自于prompt的提升；
如果目标是开发模型，则推荐不要做太多的prompt优化。

对于instruction-tuned checkpoint

prompt的差异导致模型效果的variance会减小，但是也无法忽略；
经过了instruction tuning之后，模型对prompt engineering的需求会减小，但是仍然存在

所以推荐报两份结果，一份是使用dev文件夹里的数据作为defaultprompt报一次结果，此结果看作baseline；另一份是根据自己的模型做prompt engineering然后报一次结果，此结果看作upperbound；

4、理解[推理]和[知识]

大模型测测试题目一般分推理和知识两种类型：

有些题目天生不需要reasoning，比如中国语言文学里面一个是“《茶馆》的作者是谁”，这种不需要CoT，直接AO即可，CoT反而增加了distractor；
有些题目天生需要reasoning，比如求定积分，这种直接给答案基本上都是随着直觉瞎猜，还是得一步一步推；
一般而言，知识性的问题不大需要CoT，推理型的问题需要CoT；
MMLU是一个典型的知识型数据集，所以PaLM在这上面AO比CoT好；
BBH是一个典型的推理型数据集，这上面CoT显著好于AO；
在Ceval中，文科科目比较偏知识，理科科目比较偏推理；
在Ceval上理科CoT和AO效果差不多，但这并不意味着CoT没有用，而是因为模型在CoT的时候需要能推公式，但现在很多模型做不到这件事情。因此，如果能够增加公式推导中间过程的准确性，例如OpenAI：https://arxiv.org/abs/2305.20050，预测CoT的效果会比AO好很多；

[知识]和[推理]是两项可以显著区分大小模型的能力，其中

[推理]能力的区分度是最高的，比如说gsm8k这个数据集，GPT492分，LLaMA7b只有七分，模型每大一点基本上都是十几二十分的差距；
[知识]的区分度没有[推理]这么高，但也很高；这里面模型每大一个台阶基本上是五六分的差距；
[推理]能力小的模型基本没有，很多时候acc只有个位数；
[知识]能力小模型也会有一点，比如MMLU上11Bflant5也有40+；

关于英文推理能力的benchmark，可以参见https://github.com/FranxYao/chain-of-thought-hub)

5、解读模型的分数

四选一，所以baseline是25分，
但是模型没训练好的话可能低于25分；
CoT不一定能显著提升模型分数，因为只有在推理数据类任务上，模型强到一定程度之后，CoT才会有效，这也是为什么CoT是一个典型的涌现能力
CoT的模式下，目前只评价最终答案对不对，不评价中间过程对不对，这是因为中间过程和最终答案在大部分时候显著正相关，最终答案对了，中间不会错到哪里去；中间错的多了，最终答案不会对；这种做法可以绕开中间过程难以评价的问题；
单个科目平均只有200-300道题，所以在这上面效果超过5个点才能算显著；总的科目有15k的题目，这上面效果超过2个点可以认为显著；
具体的分数的显著性还跟模型天生的variance相关，因此推荐多跑实验观察。

总结

本文主要介绍了基于知识图谱进行大模型问答以及任务编排、CEVAL榜单评测中能够得到一些启示，供大家一起参考。

文首说到的一些观点其实很耐人寻味，大家可以再加以体会。

参考文献

1、https://github.com/SJTU-LIT/ceval/blob/main/resources/tutorial.md

2、《语义增强可编程知识图谱SPG》白皮书 v1.0

3、知识图谱与大模型融合实践研究报告

4、https://www.breezedeus.com/article/vie-nougat

5、https://twitter.com/FinanceYF5/status/1697735239160959455

6、https://mp.weixin.qq.com/s/-uCVv5SOLoZUATvqiTsdoA

7、https://mp.weixin.qq.com/s/x6rfj1zZYFeg5RVrvAkLdQ

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大模型落地的一些前沿观点：兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发

一、基于知识图谱进行大模型问答以及任务编排

二、CEVAL榜单评测中能够得到一些启示

总结

参考文献

关于我们

评论