本文作者为阿德莱德大学助理教授吴琦,为大家详细介绍了其在计算机视觉研究领域,从VQA (Visual Question Answering,视觉问答) 到VLN(Vision-and-Language ,视觉与语言)的探索过程,包括对VLN的一些前瞻性思考等,内容包括:
- VLN之来龙去脉篇
- VLN之任务数据篇
- VLN之方法创新篇
- VLN之未来思考篇
- VLN之广而告之篇
作者对文章背景的介绍:
Vision-and-Language (视觉与语言)无疑是近几年CV和NLP领域都颇受关注的一个方向,当然,也颇受争议。
有的人认为它是多模态领域最值得关注的方向,是迈向视觉推理甚至是通用人工智能(Artificial general intelligence)的必经之路。
有的人则认为它是纸上谈兵,不“实”用,大部分工作围绕定义新任务和数据展开。
其实于我而言,vision-and-language最大的魅力在于,它不像传统计算机视觉任务(比如image classification,object detection,segmentation)那样是作用在一个有限的,提前定义好 的 label set上, 它所要处理的问题往往是“不可预知的”,往往是在训练集中未见过的形式与组合。
而对于各种新任务与数据,我也并不排斥。如果任务和数据定义的好,能够探索问题的边界在哪里,定位到领域内真正应该解决的问题,我认为这个贡献应比让Acc,IoU或MAP涨一两个点带来的贡献要大。
我自己从2015年开始接触vision-and-language,从image captioning做起,算是这个方向最早的一批,后来又在VQA,Referring Expression,Visual Dialog方向上做了不少工作,随着对这个方向的认知逐渐加深,也逐渐坚定了从事这个方向研究的信心,于是一路走到“黑”,一做就是6年。
去年也在Australia Institute for Machine Learning下面成立了V3A Lab (Vision-Ask-Answer-Act),打算继续在视觉-语言-动作的方向上深耕。
关于vision-and-language是做什么的,我这里就不再赘述,2018年曾写过一篇《万字漫谈vision-and-language》,里面详细介绍了这个领域相关的任务以及一些关键性的工作。
2019年写了《一文纵览vision-and-language领域最新研究与进展》,介绍了一些vision-and-language的新任务以及自己对这个方向的一些思考。
2020年也陆续介绍过一些我们组在这个领域里新的突破,比如controllable image captioning 和Cops-Ref等等。
这次我想跟大家聊聊我认为的vision-and-language领域里的一颗明珠,vision-and-language navigation,即基于视觉与语言的导航,这也是我们组过去3年投入最多,也产出最多的一个方向。
感兴趣的可以戳原文阅读完整正文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢