深度学习盛行的现在,作为一名合格的调参侠,至少都下载/使用过很多个数据集了。而现在 DL 中各种 setting 都涉及着对数据集之间关系的研究,几个典型的例子如下。

但是你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?我们或许对此一无所知。来自 Microsoft 的资深研究员 David Alvarez-Melis 连发多篇 ML 顶会对这个问题加以研究。

本文将其一系列工作分为三部分介绍:1)如何进行数据集对齐;2)如何定义数据集之间的距离测度;3)如何优化数据集。我们首先介绍知识背景即最优运输理论,然后分别介绍 David Alvarez-Melis 组关于三方面工作的三篇顶会文章。

Towards Optimal Transport with Global Invariances(AISTATS'19)

论文地址:http://proceedings.mlr.press/v89/alvarez-melis19a/alvarez-melis19a.pdf

NeurIPS 2020: Geometric Dataset Distances via Optimal Transport

论文地址:https://proceedings.neurips.cc//paper/2020/file/f52a7b2610fb4d3f74b4106fb80b233d-Paper.pdf

ICML 2021: Dataset Dynamics via Gradient Flows in Probability Space

论文地址:http://proceedings.mlr.press/v139/alvarez-melis21a/alvarez-melis21a.pdf