AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

简介

网络自动化是一种重要的技术，通过自动化常见的网络操作，完成复杂的网络任务，提高操作效率，减少手动干预的需求。传统方法，如包装器，在面对新网站时存在适应性和可扩展性有限的问题。另一方面，由大语言模型（LLMs）赋能的生成式代理在开放世界场景中表现出较差的性能和可重用性。在这项工作中，我们介绍了一个针对垂直信息网页的爬虫生成任务和将LLMs与爬虫相结合的范式，这有助于爬虫更有效地处理多样化和变化的网络环境。我们提出了AutoCrawler，这是一个两阶段的框架，利用HTML的分层结构进行渐进式理解。通过自上而下和回溯操作，AutoCrawler可以从错误的操作中学习，并不断修剪HTML以获得更好的操作生成。我们使用多个LLMs进行了全面的实验，并展示了我们框架的有效性。本文的资源可在\url{https://github.com/EZ-hwh/AutoCrawler}找到。
图表
解决问题

论文试图提出一种结合大语言模型和爬虫的自动化爬虫框架，以更高效地处理多样化和变化的网页环境。
关键思路

AutoCrawler是一个两阶段框架，利用HTML的层次结构进行渐进式理解。通过自上而下和回溯操作，AutoCrawler可以从错误的操作中学习，并不断修剪HTML以获得更好的操作生成。
其它亮点

论文使用多个大语言模型进行全面实验，并展示了框架的有效性。论文提供了资源，包括代码和数据集。
相关研究

在这个领域中，最近的相关研究包括：Web Scraper, Scrapy, BeautifulSoup等。

AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

评论