活动
论文
风云人物
专栏
项目
社交
取消
登录/注册
万字综述!从21篇最新论文看多模态预训练模型研究进展
NLP
CV
大模型
论文
苦行僧 2021-11-07 17:56 分享
以下文章来源于mp.weixin.qq.com
在传统的 NLP 单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于 Transformer 结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。
多模态预训练模型能够通过大规模数据上的预训练学到不同模态之间的语义对应关系。在图像-文本中,我们期望模型能够学会将文本中的“狗”和图片中“狗”的样子联系起来。在视频-文本中,我们期望模型能够将文本中的物体/动作与视频中的物体/动作对应起来。为实现这个目标,需要巧妙地设计预训练模型来让模型挖掘不同模态之间的关联。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
点赞
收藏
评论
分享到Link
举报反馈
举报类型(必选)
样式问题
涉嫌广告
内容抄袭
内容侵权
政治相关
内容涉黄
其他
举报详情(选填)
0/200
沙发等你来抢
去评论
评论
请先
登录
后发表评论~
沙发等你来抢
评论
沙发等你来抢