HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

向作者提问

NEW

简介

检索增强生成（RAG）已被证明可以提高大型语言模型（LLM）的知识能力并减轻其幻觉问题。网络是RAG系统中使用的主要外部知识来源，许多商业系统如ChatGPT和Perplexity都使用网络搜索引擎作为其主要的检索系统。通常，这些RAG系统会检索搜索结果，下载结果的HTML源代码，然后从HTML源代码中提取纯文本。纯文本文档或片段会被输入到大型语言模型中以增强生成。然而，在这个基于纯文本的RAG过程中，HTML中固有的许多结构和语义信息，如标题和表格结构，都会丢失。为了解决这个问题，我们提出了HtmlRAG，该方法在RAG中使用HTML而不是纯文本作为检索知识的格式。我们认为，HTML比纯文本更适合建模外部文档中的知识，而且大多数大型语言模型具备强大的理解HTML的能力。然而，使用HTML也带来了新的挑战。HTML包含额外的内容，如标签、JavaScript和CSS规范，这会给RAG系统带来额外的输入标记和噪声。为了解决这一问题，我们提出了HTML清理、压缩和剪枝策略，以缩短HTML长度，同时尽量减少信息损失。具体来说，我们设计了一种基于块树的两步剪枝方法，该方法剪除无用的HTML块，仅保留HTML的相关部分。在六个问答数据集上的实验验证了在RAG系统中使用HTML的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决的问题是在检索增强生成（RAG）系统中，从网页中提取知识时，传统方法将HTML转换为纯文本导致结构和语义信息丢失。这是一个需要改进的问题，但并非全新问题。
关键思路

论文的关键思路是提出HtmlRAG，即在RAG系统中直接使用HTML而非纯文本作为知识表示形式。与现有方法相比，这一思路能够保留更多的结构和语义信息，从而提高模型的知识理解和生成能力。
其它亮点

论文提出了HTML清洗、压缩和剪枝策略，特别是两步块树剪枝方法，以减少HTML中的冗余内容和噪声。实验在六个问答数据集上进行，验证了使用HTML在RAG系统中的优越性。论文未提及开源代码，但未来可以进一步研究如何优化HTML处理算法，以更好地适应不同类型的网页。
相关研究

最近的相关研究包括：1.《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》(2020)，提出RAG模型；2.《Web-scale Knowledge Augmentation for Pre-trained Language Models》(2021)，探讨大规模网络知识增强；3.《Leveraging Structured Knowledge in Text-to-Text Transfer Transformers》(2021)，研究如何利用结构化知识。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问