- 简介在自主导航和移动等多种实际应用场景中,为了更好地理解周围环境,图像字幕和目标检测起着至关重要的作用。本研究提出了一种新颖的多任务学习框架,将图像字幕和目标检测结合成一个联合模型。我们提出了TICOD,一种基于Transformer的图像字幕和目标检测模型,通过结合从图像字幕和目标检测网络中获得的损失来联合训练两个任务。通过利用联合训练,模型受益于两个任务之间共享的互补信息,从而提高了图像字幕的性能。我们的方法利用基于Transformer的架构,实现了图像字幕和目标检测的端到端网络集成,并联合执行两个任务。我们在MS-COCO数据集上进行了全面的实验,证明了我们方法的有效性。我们的模型在图像字幕领域的基准测试中表现优异,BERTScore的性能提高了3.65%。
-
- 图表
- 解决问题本论文旨在解决自主导航和移动等场景中,通过图像描述和物体检测来获得更好的视觉理解的问题。论文提出了一种新的多任务学习框架,将图像描述和物体检测结合到一个联合模型中。
- 关键思路论文采用了一种基于Transformer的图像描述和物体检测模型,通过联合训练两个任务,从而利用两个任务之间的互补信息,提高图像描述的性能。
- 其它亮点论文的模型在MS-COCO数据集上进行了全面的实验,超过了图像描述文献中的基线,BERTScore提高了3.65%。值得关注的是,论文的模型采用了端到端的网络集成,实现了图像描述和物体检测的联合训练。
- 近期在这个领域的相关研究包括:1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2.《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》;3.《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流