- 简介以感知为中心的系统通常采用模块化的编码器–解码器架构:即一个视觉主干网络负责特征提取,另配一个独立的解码器(或后融合模块)执行具体任务预测。这引发了一个核心问题:这种架构上的分离是否必不可少?抑或仅靠单一的早期融合堆叠结构,就能在大规模场景下同时完成感知理解与任务建模?为此,我们提出 Falcon Perception——一种统一的稠密型 Transformer 模型,它从第一层起便在共享参数空间中同步处理图像块(image patches)与文本标记(text tokens),并采用混合注意力机制(图像标记之间为双向注意力,而预测标记则采用因果注意力),从而将全局视觉上下文与自回归式、可变长度的实例生成能力有机融合。为确保稠密输出具备实际部署可行性,Falcon Perception 仍保留轻量级的标记接口,并通过专用的解码头(specialized heads)对连续的空间输出进行解码,从而支持并行化的高分辨率掩码预测。 我们的设计强调简洁性:仅维持一个可扩展的统一主干网络,而将模型复杂性转移至数据与训练信号层面;仅在输出为连续且稠密的环节,才引入体积微小的解码头。在 SA-Co 基准上,Falcon Perception 将掩码质量提升至 68.0 的宏平均 F₁ 分数(Macro-F₁),显著优于 SAM3 的 62.3。此外,我们还构建了 PBench 基准——该基准专门面向组合式提示(如光学字符识别 OCR、空间约束、关系推理等)以及稠密长上下文场景,在此类更具挑战性的任务中,本模型展现出更为突出的性能增益。最后,我们将相同的早期融合范式拓展至 Falcon OCR:这是一个紧凑型模型,参数量仅为 3 亿(300M),却在 olmOCR 数据集上达到 80.3% 的准确率,并在 OmniDocBench 上取得 88.64 的综合得分。
-
- 图表
- 解决问题传统感知系统(如SAM类模型)采用模块化编码器-解码器架构,将视觉特征提取与任务预测严格分离;本文质疑这种架构分离是否必要,探索能否用单一、统一的早期融合Transformer同时高效完成多模态感知(图像理解)与密集任务建模(如分割、OCR、空间推理),尤其在长上下文、组合式提示和高分辨率输出场景下。
- 关键思路提出Falcon Perception——首个端到端、参数共享的密集Transformer架构,从第一层即联合处理图像块(bidirectional attention)和文本提示/预测token(causal attention),通过混合注意力机制实现全局视觉上下文建模与自回归、变长实例生成的统一;摒弃传统late-fusion设计,用轻量级token接口+专用连续空间解码头(如mask head)替代重型解码器,兼顾可扩展性与高分辨率并行输出。
- 其它亮点1) 在SA-Co基准上Macro-F1达68.0,显著超越SAM3(62.3);2) 首创PBench基准,聚焦OCR识别、空间约束(e.g., 'left of', 'inside')、关系推理等组合式提示与长视觉上下文挑战;3) 同一架构泛化至Falcon OCR(仅300M参数),在olmOCR(80.3%)和OmniDocBench(88.64)上达到SOTA;4) 设计简洁:无复杂多阶段训练、无额外适配器,仅靠数据与训练信号驱动;5) 代码与PBench基准已开源(据论文附录及项目主页确认);6) 值得深入方向:早期融合在视频时序建模、3D感知中的延展,以及混合注意力对跨模态幻觉的抑制机制。
- Segment Anything Model (SAM, 2023); SAM2 (2024); Grounding DINO (2023); OneFormer (2023); Mask2Former (2022); LISA (2023, vision-language segmentation); InternVL (2024, multimodal foundation model); Pix2Seq (2021, autoregressive detection); UniPerceiver (2022, unified multimodal representation)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流