谷歌构建了一个可以称得上是资源“海量”的数据集搜索引擎“Dataset Search” https://datasetsearch.research.google.com

图片

这篇推文便想向大家简介一下 Dataset Search 的功能,有关构建它的动机与实现方法,大家可以在下面这篇文章中看到:

论文题目:

Google Dataset Search: Building a search engine for datasets in an open Web ecosystem 

论文链接: 

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/77547c8d2a7fba472e76c774028cf2b3c0afdb8a.pdf

早在 2017 年,Google 就已经开始了“数据集检索”任务的实践,并且在 2019 年提出了一个“数据集搜索引擎”的初步构想与技术框架,而在 2020 年 1 月,“Dataset Search” 正式结束测试,上线了谷歌。

Dataset Search 的页面十分简洁,只有搜索框与和一个简单的登录按钮,使用谷歌账户登录后可以保存、跟踪需要检索的数据集。左边是检索结果的排列,根据相关性呈现检索到的结果,右边是检索结果的简介,显示了数据集的来源、获取入口、作者与关于这个数据集的简短说明。链接进去之后,可以直接得到数据的介绍与下载链接。

图片

除了基本的检索功能外,Dataset Search 也提供了颇为丰富的筛选功能,可以从时间、下载格式、使用权限、学科与是否付费进行筛选:

可以看到,这个项目建立之初便不是把目光仅仅聚集于 AI 这一块小天地,而是更加开放的鼓励跨学科的数据集共享,学科已经有人文社科、社会科学、生命科学、农业等等,在 2020 年 8 月谷歌关于这个项目的一个博客中展现了目前这个项目的涉及领域:

图片

这也使得,Dataset Search 不仅可以针对固定的开源数据集进行搜索,还能对许多特定行业特定领域的数据进行搜索,比如检索“共享单车”,也可以找到大量共享单车的订单、轨迹等数据集:

图片

 

除了依据领域,也可以直接检索任务,比如搜索文本分类,但是在结果不会特别显示出文本分类的常用数据集,但是几乎无一例外,搜索情感分析、主题分析内的常用数据集几乎都可以在 Dataset Search 中找到。

尽管 Dataset Search 支持中文搜索,但是中文数据集的数量显然不太尽如人意,数据集仍然集中于台湾、香港的大学、比赛发布的数据集。

而在提供强大的检索功能以为,谷歌更想做的,可能是一个数据集共享的生态,以数据集搜索引擎为线索,谷歌沿用了 2011 年提出的 schema.org 计划,schema.org 是一种与搜索引擎进行交互的代码形式,以类似 SEO 优化的形式,告诉搜索引擎在抓取信息时应该关注的重点。

图片

通过 schema.org ,可以在数据集的“供应商”与 Dataset Search 的互动中形成良性循环,更好的为用户展示数据集中的内容,便于用户更加方便快捷的使用。

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除