FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network

向作者提问

NEW

简介

多模态物体检测为在各种视觉条件下促进强大检测提供了有前途的前景。然而，现有的双流骨干网络面临着复杂的融合和大量参数增加的挑战。这主要是由于多模态同质信息的大数据分布偏差所致。本文提出了一种新颖的多模态物体检测器，名为具有共享骨干的低秩模态适配器（LMA）。共享参数增强了同质信息的一致性，而轻量级模态适配器则专注于模态独特特征。此外，我们设计了一种自适应秩分配策略，以适应不同特征级别的变化异质性。在应用于两个多模态物体检测数据集时，实验证实了我们方法的有效性。值得注意的是，在DroneVehicle上，LMA相比最先进的方法提高了10.4%的准确性，并减少了149M个参数。代码可在https://github.com/zyszxhy/FoRA上获得。我们的工作于2024年4月提交给ACM MM，但被拒绝了。我们将继续完善我们的工作和论文写作，主要包括FoRA的理论证明和多任务应用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：该论文旨在解决多模态目标检测中存在的数据分布偏差问题，提出了一种名为LMA的新型多模态目标检测器，旨在提高检测的鲁棒性。
关键思路

关键思路：论文提出了共享主干网络和轻量级模态适配器相结合的方法，以加强同质信息的一致性，并专注于模态独特的特征。此外，还设计了自适应秩分配策略，以适应不同特征层次上的异质性。
其它亮点

其他亮点：论文在两个多模态目标检测数据集上进行了实验，验证了该方法的有效性。尤其是在DroneVehicle数据集上，LMA相比最先进的方法提高了10.4％的准确性，并减少了149M参数。作者还提供了开源代码。未来的工作将包括理论证明和FoRA的多任务应用。
相关研究

相关研究：在这个领域中，最近的相关研究包括：Two-Stream Convolutional Networks for Action Recognition in Videos，Deep Residual Learning for Image Recognition，Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问