每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs
2026年05月21日
视频大语言模型(Video-LLMs)在时序视频理解任务上已取得快速进展,但在一项基础的感知基本能力上却普遍失效:即对图像平面内运动方向的正负号判别(即判断物体是向左、向右、向上还是向下运动)。在仅包含单个物体沿上述四个基本方向之一运动的简单视频上,大多数Video-LLMs的表现接近随机猜测水平;少数略高于随机水平的情况,也主要归因于模型固有的预测偏差,而非真正具备了对运动方向的理解能力。我们将这一缺陷称为“方向性运动失明”(directional motion blindness)。 我们通过追踪运动方向信息在Video-LLM全流程中的传递路径,准确定位了该失败环节。结果表明:运动方向信息在视觉编码器输出、多模态投影器(projector)输出以及大语言模型(LLM)各层隐藏状态中,均保持线性可分性;然而,在最终的读出(readout)阶段,模型却无法将该信号准确绑定至对应的文本答案选项,暴露出一个关键的“方向绑定缺口”(direction binding gap)。尽管采用合成数据进行运动方向相关的指令微调(instruction tuning)可在源域内部分缓解该缺口,但通过对运动方向概念向量(concept vector)的分析发现:视觉复杂度会显著削弱方向信号的强度,并严重制约模型在跨域场景下的泛化能力。 为此,我们构建了MoDirect——一个专用于运动方向指令微调与评估的视频数据集系列;同时提出了DeltaDirect——一种以诊断驱动、作用于投影器层级的新型优化目标,其核心是基于相邻帧特征差值,直接预测归一化的二维运动向量。在合成数据基准测试集MoDirect-SynBench上,结合DeltaDirect进行指令微调后,模型的运动方向识别准确率从25.9%大幅提升至85.4%;而在真实世界视频基准测试集MoDirect-RealBench上,DeltaDirect在**未使用任何真实世界调优数据**的前提下,使模型在真实场景下的运动方向识别准确率相较原始基线模型提升了21.9个百分点,且完全不损害其在标准视频理解任务上的原有性能。 代码地址:https://github.com/KHU-VLL/DeltaDirect
许愿开讲
PDF
解读
Cambrian-P: Pose-Grounded Video Understanding
2026年05月21日
相机位姿至关重要。每个视角的位置与朝向共同定义了一个统一的空间坐标系,从而建立起视频各帧观测之间的空间关联。然而,当前面向视频理解的多模态大语言模型(MLLM)却普遍忽略了这一关键信号:它们将视频帧视为彼此孤立的二维图像快照,而非人类所感知的那种具有连续空间结构的持久化场景。我们重新审视相机位姿作为一种轻量级监督信号的价值,并提出Cambrian-P——一种专为视频理解设计的多模态大语言模型,其在每帧中引入可学习的相机标记(camera tokens),并配备专门用于位姿回归的预测头(pose regression head)。借助精心设计的采样策略,该模型在VSI-Bench等空间推理基准测试上取得了4.5%–6.5%的显著性能提升;同时,在另外八个涵盖空间推理与通用视频问答任务的基准测试中均展现出优异的泛化能力;此外,作为副产物,其在ScanNet数据集上实现了当前最优的流式相机位姿估计性能。尤为令人意外的是,仅使用野外采集视频自动生成的伪标注位姿进行训练,竟也能进一步提升通用视频问答基准的表现,表明相机位姿的作用远不止于空间推理本身。综上所述,这些结果共同确立了相机位姿作为视频模型理解物理世界的一项基础性信号地位。
许愿开讲
PDF
解读
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
2026年05月21日
当前基于运动控制的图像到视频生成模型,严格遵循用户提供的运动轨迹,而这些轨迹往往稀疏、不精确且缺乏因果完整性。这种过度依赖易导致生成结果显得不自然或不合常理,尤其容易忽略由主运动所引发的次级因果效应。为解决这一问题,我们提出了MotiMotion——一种全新框架,将运动控制重新定义为“先推理、后生成”的任务。为促使生成结果具备扎实的因果基础并符合常识逻辑,我们采用一种无需训练的视觉-语言推理器(VLM),对主运动轨迹在图像空间中的坐标进行精细化修正,并合理“幻构”出符合物理与常识的次级运动。为进一步提升运动的自然性,我们提出一种置信度感知的控制机制:该机制动态调节控制强度,使模型在面对高置信度运动规划时能紧密跟随,在输入置信度较低时则依托其内在的生成先验自动修正伪影。为支持系统性评估,我们构建了一个全新的图像到视频基准数据集——MotiBench,其中所有场景均以交互为核心,且新事件均由主体运动直接触发。基于视觉-语言模型的自动评估及在MotiBench上开展的人类主观评测均表明:MotiMotion生成的视频中,物体行为更合理、交互更可信,其综合表现显著优于现有方法。
许愿开讲
PDF
解读
Vector Policy Optimization: Training for Diversity Improves Test-Time Search
2026年05月21日
如今,语言模型必须具备“开箱即用”的泛化能力,以适应全新环境,并能嵌入推理规模扩展型的搜索流程(例如 AlphaEvolve)中——这类流程需依据多种任务特定的奖励函数,对模型生成的轨迹(rollouts)进行筛选。遗憾的是,当前大语言模型(LLM)后训练所采用的标准范式,仅优化一个预先设定的标量奖励值,这往往导致现有 LLM 生成的响应分布熵值偏低,因而难以展现出推理时搜索所必需的多样性。为此,我们提出向量策略优化(Vector Policy Optimization, VPO)——一种强化学习算法,其核心目标是显式地训练策略,使其能够预判下游可能出现的多种奖励函数,并主动产出多样化的解决方案。VPO 的设计充分利用了实践中奖励函数常为向量形式这一事实,例如在代码生成任务中,奖励可表示为每个测试用例是否通过的布尔向量;又如在面向不同用户画像或多个奖励模型的场景中,奖励亦可自然地建模为多维向量。VPO 本质上可作为 GRPO 优势估计器的即插即用式替代方案,但它训练语言模型输出一组解,其中每个解均在向量奖励空间的不同权衡维度上实现专业化。在四项任务上的实验表明,VPO 在测试时搜索性能(如 pass@k 和 best@k 指标)上达到或超越了最强的标量强化学习基线,且随着搜索预算增加,其性能优势愈发显著。在进化式搜索(evolutionary search)中,采用 VPO 训练的模型甚至能够解决 GRPO 模型完全无法应对的问题。随着测试时搜索技术日趋标准化,以多样性为目标的优化,或将逐步成为后训练阶段的默认优化目标。
许愿开讲
PDF
解读
AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation
2026年05月21日
视觉-语言导航(VLN)要求智能体将自然语言指令与自身在视觉环境中的运动进行对齐。尽管当前最先进的方法利用视觉-语言模型(VLM)的推理能力,实现端到端的动作预测,但它们往往缺乏对智能体、指令与场景三者之间关系的显式建模与可解释性理解。相反,显式构建场景地图以支持启发式规划虽在直觉上颇具吸引力,却依赖额外的三维传感器输入,且会阻碍大规模视觉-语言预训练的开展。为弥合这一鸿沟,我们提出AwareVLN——一种全新框架,为导航模型赋予一种自感知推理机制,使其能够以完全端到端、数据驱动的方式,理解自身的状态及任务执行进度。本方法包含两大核心创新:(1)一个结构化推理模块,用以促进空间感知与任务导向的自感知能力;(2)一个配备进度划分功能的自动化数据引擎,以支撑高效训练。我们在Habitat仿真平台上的多个基准数据集上开展了大量实验,结果表明,AwareVLN显著超越了此前所有最先进的视觉-语言导航方法。项目主页:https://gwxuan.github.io/AwareVLN/
许愿开讲
PDF
解读
Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration
2026年05月21日
探索是智能体在稀疏奖励、长时程任务(尤其是在三维环境中)中学习有效行为的前提条件。基于好奇心的强化学习方法通过引入内在奖励来应对这一挑战,该内在奖励源自智能体对世界所构建的预测模型与真实环境之间的偏差。然而,将这种内在动机成功迁移到复杂、逼真的照片级三维环境中仍十分困难:智能体容易陷入局部循环,且在重新访问先前遗忘的状态时反复获得“新鲜”奖励,从而阻碍真正有效的探索。本文研究表明,此类失败的根本原因在于缺乏空间上的持续性(spatial persistence)以及情节式上下文(episodic context)。我们指出,要实现有效的内在好奇心驱动,必须同时满足两个关键条件:其一,需构建一个具备空间持续性、并能持续在线更新的世界模型;其二,智能体自身须维护一段情节式的轨迹历史,以支撑其主动向新颖区域导航。为实现这一目标,我们采用一种在线三维重建机制作为持久化、可更新的世界模型;同时,将智能体策略参数化为一种以RGB图像序列为输入的序列模型,从而自然地保留情节式上下文信息。该设计不仅显著提升了训练阶段的探索效率,更确保智能体在部署时仅依赖原始RGB帧即可完成自主导航。我们在HM3D数据集上仅通过纯粹的内在好奇心信号进行端到端训练,结果表明,本方法在性能上全面超越了基于强化学习的主动建图基线方法,并能零样本泛化至Gibson数据集及AI生成的虚拟世界。此外,我们提出的端到端策略可高效适配各类下游任务(例如苹果采摘和图像目标导航),其表现亦明显优于从零开始训练的基线方法。相关视频演示请参见:https://recuriosity.github.io/。
许愿开讲
PDF
解读
GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations
2026年05月21日
视觉-语言-动作(VLA)模型通过统一感知与动作,在通用机器人操作任务中展现出强大潜力。然而,现有VLA系统主要依赖文本指令,在存在多个相似物体的复杂场景中,难以有效消除空间指代歧义。为解决这一局限,本文引入手势作为与文本并行的指令模态,并提出一种具备手势感知能力的视觉-语言-动作模型(GesVLA)。本方法将手势特征直接编码至模型隐空间,使其既能参与高层语义推理,也能驱动底层动作生成;同时采用双视觉语言模型(dual-VLM)架构,实现手势表征与动作策略之间的紧密耦合。在数据层面,我们构建了一条可扩展的手势数据生成流水线:通过将三维手部模型渲染至真实场景图像上,既显著缩小了仿真到现实的视觉域差距,又高效生成了涵盖丰富运动模式及对应指向标注的大规模多样化数据。此外,我们采用两阶段训练策略,使模型同步具备手势理解与动作预测能力。我们在多项真实机器人任务中对所提方法进行了评估,包括用于验证性能的受控积木操作任务,以及更具实用价值的产品与生鲜挑选等场景。实验结果表明,引入手势模态能持续提升目标定位精度与人机交互效率,尤其在环境复杂、物体密集的条件下优势更为显著。项目主页:https://gwxuan.github.io/GesVLA/
许愿开讲
PDF
解读
GS-QA: A Benchmark for Geospatial Question Answering
2026年05月21日
大语言模型(LLMs)的最新进展显著提升了问答(QA)任务的性能。为应对问答系统评估这一挑战,学界已陆续推出若干标准化评测基准。本研究聚焦于地理空间问答(geospatial QA)问题,其典型场景是存在海量地理空间数据,这些数据以空间数据库或其他形式存储。现有地理空间问答评测基准普遍存在诸多局限:问题数量稀少、支持的空间谓词类型有限、输出形式单一、且缺乏对多源信息协同推理能力的考察。为此,我们提出了GS-QA——一个可扩展的地理空间问答评测基准。该基准基于OpenStreetMap(OSM)与维基百科数据构建,共包含2800组问答对,覆盖28类问题模板,涵盖广泛的空间实体类型、空间谓词(包括方向性谓词及“朝向”类过滤谓词)以及多样化的答案类型(如实体名称、地理位置坐标、距离、方向、计数值,以及聚合计算所得的面积与长度)。GS-QA的一个关键特性在于,部分问题需融合来自多个数据源的信息进行联合推理,例如,同时利用OSM提供的地理空间信息与维基百科提供的事实性知识。此外,GS-QA配备了一套全面的评估方法体系,将传统基于文本的问答评价指标(如准确率、F1值等)与地理空间领域特有指标(如位置距离误差、方位角误差)有机结合。我们基于三类大语言模型(GPT-4o、Claude Sonnet 4.6 和 Ministral-3),结合直接提示(direct prompting)、检索增强生成(RAG)和文本到SQL(text-to-SQL)等多种技术路径,实现了九种面向地理空间问答的LLM基线方法。实验结果表明:当前方法在处理仅涉及简单空间谓词且答案为实体名称的问答任务时表现尚可;但一旦问题涉及复杂空间谓词、需输出数值型结果(如距离、角度、面积等)或依赖多源信息协同推理时,其准确率便出现显著下降。这充分说明,地理空间问答仍是一个极具挑战性的开放问题,亟需学术界持续深入探索与研究。
许愿开讲
PDF
解读