- 简介网络自动化是一种重要的技术,通过自动化常见的网络操作,完成复杂的网络任务,提高操作效率,减少手动干预的需求。传统方法,如包装器,在面对新网站时存在适应性和可扩展性有限的问题。另一方面,由大语言模型(LLMs)赋能的生成式代理在开放世界场景中表现出较差的性能和可重用性。在这项工作中,我们介绍了一个针对垂直信息网页的爬虫生成任务和将LLMs与爬虫相结合的范式,这有助于爬虫更有效地处理多样化和变化的网络环境。我们提出了AutoCrawler,这是一个两阶段的框架,利用HTML的分层结构进行渐进式理解。通过自上而下和回溯操作,AutoCrawler可以从错误的操作中学习,并不断修剪HTML以获得更好的操作生成。我们使用多个LLMs进行了全面的实验,并展示了我们框架的有效性。本文的资源可在\url{https://github.com/EZ-hwh/AutoCrawler}找到。
- 图表
- 解决问题论文试图提出一种结合大语言模型和爬虫的自动化爬虫框架,以更高效地处理多样化和变化的网页环境。
- 关键思路AutoCrawler是一个两阶段框架,利用HTML的层次结构进行渐进式理解。通过自上而下和回溯操作,AutoCrawler可以从错误的操作中学习,并不断修剪HTML以获得更好的操作生成。
- 其它亮点论文使用多个大语言模型进行全面实验,并展示了框架的有效性。论文提供了资源,包括代码和数据集。
- 在这个领域中,最近的相关研究包括:Web Scraper, Scrapy, BeautifulSoup等。
沙发等你来抢
去评论
评论
沙发等你来抢