Falcon Perception - 智源社区论文

向作者提问

NEW

简介

以感知为中心的系统通常采用模块化的编码器–解码器架构：即一个视觉主干网络负责特征提取，另配一个独立的解码器（或后融合模块）执行具体任务预测。这引发了一个核心问题：这种架构上的分离是否必不可少？抑或仅靠单一的早期融合堆叠结构，就能在大规模场景下同时完成感知理解与任务建模？为此，我们提出 Falcon Perception——一种统一的稠密型 Transformer 模型，它从第一层起便在共享参数空间中同步处理图像块（image patches）与文本标记（text tokens），并采用混合注意力机制（图像标记之间为双向注意力，而预测标记则采用因果注意力），从而将全局视觉上下文与自回归式、可变长度的实例生成能力有机融合。为确保稠密输出具备实际部署可行性，Falcon Perception 仍保留轻量级的标记接口，并通过专用的解码头（specialized heads）对连续的空间输出进行解码，从而支持并行化的高分辨率掩码预测。我们的设计强调简洁性：仅维持一个可扩展的统一主干网络，而将模型复杂性转移至数据与训练信号层面；仅在输出为连续且稠密的环节，才引入体积微小的解码头。在 SA-Co 基准上，Falcon Perception 将掩码质量提升至 68.0 的宏平均 F₁ 分数（Macro-F₁），显著优于 SAM3 的 62.3。此外，我们还构建了 PBench 基准——该基准专门面向组合式提示（如光学字符识别 OCR、空间约束、关系推理等）以及稠密长上下文场景，在此类更具挑战性的任务中，本模型展现出更为突出的性能增益。最后，我们将相同的早期融合范式拓展至 Falcon OCR：这是一个紧凑型模型，参数量仅为 3 亿（300M），却在 olmOCR 数据集上达到 80.3% 的准确率，并在 OmniDocBench 上取得 88.64 的综合得分。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统感知系统（如SAM类模型）采用模块化编码器-解码器架构，将视觉特征提取与任务预测严格分离；本文质疑这种架构分离是否必要，探索能否用单一、统一的早期融合Transformer同时高效完成多模态感知（图像理解）与密集任务建模（如分割、OCR、空间推理），尤其在长上下文、组合式提示和高分辨率输出场景下。
关键思路

提出Falcon Perception——首个端到端、参数共享的密集Transformer架构，从第一层即联合处理图像块（bidirectional attention）和文本提示/预测token（causal attention），通过混合注意力机制实现全局视觉上下文建模与自回归、变长实例生成的统一；摒弃传统late-fusion设计，用轻量级token接口+专用连续空间解码头（如mask head）替代重型解码器，兼顾可扩展性与高分辨率并行输出。
其它亮点

1) 在SA-Co基准上Macro-F1达68.0，显著超越SAM3（62.3）；2) 首创PBench基准，聚焦OCR识别、空间约束（e.g., 'left of', 'inside'）、关系推理等组合式提示与长视觉上下文挑战；3) 同一架构泛化至Falcon OCR（仅300M参数），在olmOCR（80.3%）和OmniDocBench（88.64）上达到SOTA；4) 设计简洁：无复杂多阶段训练、无额外适配器，仅靠数据与训练信号驱动；5) 代码与PBench基准已开源（据论文附录及项目主页确认）；6) 值得深入方向：早期融合在视频时序建模、3D感知中的延展，以及混合注意力对跨模态幻觉的抑制机制。
相关研究

Segment Anything Model (SAM, 2023); SAM2 (2024); Grounding DINO (2023); OneFormer (2023); Mask2Former (2022); LISA (2023, vision-language segmentation); InternVL (2024, multimodal foundation model); Pix2Seq (2021, autoregressive detection); UniPerceiver (2022, unified multimodal representation)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问