论文标题:
Cross-Modal Discrete Representation Learning
MIT麻省理工学院
https://aclanthology.org/2022.acl-long.215/
本文提出了一种自监督学习方法,让不同模态的数据可以被建模到同一个离散的细粒度表征中——即用一个类似词表的东西来建模跨模态的数据。作者认为用这种离散化的“词”可以提升跨模态检索的精度、并且让模型有更好的解释性。作者认为以往的多模态模型仍然使用的是连续向量特征来建模各个模态的数据,而连续向量空间有两个问题:一是它们的 encoder 往往是彼此独立的,使得要比较不同模态 encoder 的激活很困难;二是连续向量是无界的,使得其表征学习的解释性差。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢