WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
解决问题:本篇论文旨在解决网页多模态理解任务中数据集的缺失问题,提出了一个新的数据集WikiWeb2M。该数据集是第一个保留了网页中所有图像、文本和结构数据的数据集,可以用于诸如页面描述生成、部分摘要和上下文图像字幕等任务。
关键思路:论文的关键思路是提出了一个新的数据集,该数据集保留了网页中所有图像、文本和结构数据,为网页多模态理解任务提供了更好的数据基础。相比当前领域的研究状况,该论文的思路具有很大的创新性和实用性。
其他亮点:该论文的实验使用了WikiWeb2M数据集,并展示了该数据集在页面描述生成、部分摘要和上下文图像字幕等任务上的效果。作者还开源了数据集和代码,为后续相关研究提供了便利。这项工作值得进一步深入研究,以探索更多应用场景和算法模型。
关于作者:本篇论文的主要作者是Andrea Burns、Krishna Srinivasan、Joshua Ainslie、Geoff Brown、Bryan A. Plummer、Kate Saenko、Jianmo Ni和Mandy Guo。他们分别来自波士顿大学、麻省理工学院、多伦多大学和斯坦福大学等机构。他们之前的代表作包括《Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions》、《Learning to Navigate the Web》等。
相关研究:近期其他相关的研究包括《VizWiz-Priv: A Dataset for Recognizing the Presence and Purpose of Private Visual Information in Images Taken by Blind People and Guiding Its Removal》(作者:Danna Gurari等,机构:德克萨斯大学奥斯汀分校)、《Learning to Map Context-Dependent Sentences to Executable Formal Queries》(作者:Yunqi Zhang等,机构:华盛顿大学)等。
论文摘要:WikiWeb2M:一个基于页面的多模态维基百科数据集。 安德里亚·伯恩斯,克里希纳·斯里尼瓦桑,乔舒亚·艾因斯利,杰夫·布朗,布赖恩·A·普拉默,凯特·赛恩科,倪建谟,郭曼迪。 网页一直是语言和视觉语言任务的丰富资源。然而,只有网页的部分被保留下来:图像-标题对、长文本文章或原始HTML,从未在一个地方集中。因此,网页任务受到的关注较少,结构化的图像文本数据被低估了。为了研究多模态网页理解,我们引入了维基百科网页2M(WikiWeb2M)套件;这是第一个保留了一个页面中所有可用图像、文本和结构数据的套件。WikiWeb2M可用于页面描述生成、章节摘要和上下文图像字幕等任务。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢