本篇文章解读发表在 ICCV 2021的工作: “Conditional DETR for Fast Training Convergence”. 我们针对 DEtection Transformer (DETR) 训练收敛慢的问题(需要训练500 epoch才能获得比较好的效果) 提出了conditional cross-attention mechanism,通过 conditional spatial query 显式地寻找物体的 extremity 区域,从而缩小搜索物体的范围,加速了收敛。结构上只需要对 DETR 的 cross-attention 部分做微小的改动,就能将收敛速度提高 6~10 倍。
作者单位:中国科学技术大学,北京大学,微软亚洲研究院
论文:https://arxiv.org/pdf/2108.06152.pdf
代码:https://github.com/Atten4Vis/ConditionalDETR
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢