- 简介检索增强生成(RAG)已被证明可以提高大型语言模型(LLM)的知识能力并减轻其幻觉问题。网络是RAG系统中使用的主要外部知识来源,许多商业系统如ChatGPT和Perplexity都使用网络搜索引擎作为其主要的检索系统。通常,这些RAG系统会检索搜索结果,下载结果的HTML源代码,然后从HTML源代码中提取纯文本。纯文本文档或片段会被输入到大型语言模型中以增强生成。然而,在这个基于纯文本的RAG过程中,HTML中固有的许多结构和语义信息,如标题和表格结构,都会丢失。为了解决这个问题,我们提出了HtmlRAG,该方法在RAG中使用HTML而不是纯文本作为检索知识的格式。我们认为,HTML比纯文本更适合建模外部文档中的知识,而且大多数大型语言模型具备强大的理解HTML的能力。然而,使用HTML也带来了新的挑战。HTML包含额外的内容,如标签、JavaScript和CSS规范,这会给RAG系统带来额外的输入标记和噪声。为了解决这一问题,我们提出了HTML清理、压缩和剪枝策略,以缩短HTML长度,同时尽量减少信息损失。具体来说,我们设计了一种基于块树的两步剪枝方法,该方法剪除无用的HTML块,仅保留HTML的相关部分。在六个问答数据集上的实验验证了在RAG系统中使用HTML的优越性。
-
- 图表
- 解决问题论文试图解决的问题是在检索增强生成(RAG)系统中,从网页中提取知识时,传统方法将HTML转换为纯文本导致结构和语义信息丢失。这是一个需要改进的问题,但并非全新问题。
- 关键思路论文的关键思路是提出HtmlRAG,即在RAG系统中直接使用HTML而非纯文本作为知识表示形式。与现有方法相比,这一思路能够保留更多的结构和语义信息,从而提高模型的知识理解和生成能力。
- 其它亮点论文提出了HTML清洗、压缩和剪枝策略,特别是两步块树剪枝方法,以减少HTML中的冗余内容和噪声。实验在六个问答数据集上进行,验证了使用HTML在RAG系统中的优越性。论文未提及开源代码,但未来可以进一步研究如何优化HTML处理算法,以更好地适应不同类型的网页。
- 最近的相关研究包括:1.《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》(2020),提出RAG模型;2.《Web-scale Knowledge Augmentation for Pre-trained Language Models》(2021),探讨大规模网络知识增强;3.《Leveraging Structured Knowledge in Text-to-Text Transfer Transformers》(2021),研究如何利用结构化知识。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流