LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

自监督学习通过直接观察环境来进行学习，而非通过有标签的图像、文本、音频和其他数据源进行学习。然而从不同模态（例如图像、文本、音频）中学习的方式存在很大差异。这种差异限制了自监督学习的广泛应用，例如为理解图像而设计的强大算法不能直接应用于文本，因此很难以相同的速度推动多种模态的进展。

data2vec 是首个适用于多模态的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本，在计算机视觉、语音任务上优于最佳单一用途算法，并且在 NLP 任务也能取得具有竞争力的结果。此外，data2vec 还代表了一种新的、全面的自监督学习范式，其提高了多种模态的进步，而不仅仅是一种模态。data2vec 不依赖对比学习或重建输入示例，除了帮助加速 AI 的进步，data2vec 让我们更接近于制造能够无缝地了解周围世界不同方面的机器。data2vec 使研究者能够开发出适应性更强的 AI，Meta AI 相信其能够在多种任务上超越已有系统。

data2vec 以相同的方式学习图像、语音和文本。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

评论列表

评论