- 简介本文介绍了一种名为Fundus的用户友好型新闻爬取器,它可以让用户只需几行代码就能获取数百万篇高质量的新闻文章。与现有的新闻爬取器不同,我们使用手工制作的定制内容提取器,这些提取器专门针对每个支持的在线报纸的格式指南进行了定制。这使我们能够优化我们的爬取质量,以便检索到的新闻文章是完整的文本,没有HTML残留。此外,我们的框架将爬取(从Web或大型Web存档中检索HTML)和内容提取结合成一个单一的流程。通过为预定义的报纸集合提供统一的接口,我们旨在使Fundus即使对非技术用户也易于使用。本文概述了该框架,讨论了我们的设计选择,并对其他流行的新闻爬取器进行了比较评估。我们的评估表明,Fundus提取的质量(完整且无残留的新闻文章)显著高于之前的工作。该框架可在GitHub上获得,网址为https://github.com/flairNLP/fundus,并且可以使用pip进行简单安装。
- 图表
- 解决问题本论文旨在介绍一个名为Fundus的用户友好型新闻爬取工具,旨在通过几行代码获取数百万条高质量新闻文章。该工具使用手动制作的内容抽取器,针对每个支持的在线报纸的格式指南进行特定定制,以优化爬取质量,使得检索到的新闻文章在文本上完整且没有HTML残留。此外,该框架将爬取(从Web或大型Web存档中检索HTML)和内容抽取合并为单个流程。通过为预定义的报纸集合提供统一接口,即使对于非技术用户,我们也旨在使Fundus广泛可用。
- 关键思路本论文的关键思路是使用手动制作的内容抽取器,针对每个支持的在线报纸的格式指南进行特定定制,以优化爬取质量,同时将爬取和内容抽取合并为单个流程,从而提供一个统一接口。
- 其它亮点本论文的亮点包括:使用手动制作的内容抽取器,针对每个支持的在线报纸的格式指南进行特定定制,以优化爬取质量;将爬取和内容抽取合并为单个流程,提供一个统一接口;实验结果表明,与现有工作相比,Fundus提取的新闻文章质量更高;该框架已在GitHub上开源,可以使用pip进行安装。
- 近期在这个领域中的相关研究包括:Scrapy、Newspaper、BeautifulSoup等新闻爬取工具。
沙发等你来抢
去评论
评论
沙发等你来抢