AI热门论文

Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs

视频大语言模型（Video-LLMs）在时序视频理解任务上已取得快速进展，但在一项基础的感知基本能力上却普遍失效：即对图像平面内运动方向的正负号判别（即判断物体是向左、向右、向上还是向下运动）。在仅包含单个物体沿上述四个基本方向之一运动的简单视频上，大多数Video-LLMs的表现接近随机猜测水平；少数略高于随机水平的情况，也主要归因于模型固有的预测偏差，而非真正具备了对运动方向的理解能力。我们将这一缺陷称为“方向性运动失明”（directional motion blindness）。我们通过追踪运动方向信息在Video-LLM全流程中的传递路径，准确定位了该失败环节。结果表明：运动方向信息在视觉编码器输出、多模态投影器（projector）输出以及大语言模型（LLM）各层隐藏状态中，均保持线性可分性；然而，在最终的读出（readout）阶段，模型却无法将该信号准确绑定至对应的文本答案选项，暴露出一个关键的“方向绑定缺口”（direction binding gap）。尽管采用合成数据进行运动方向相关的指令微调（instruction tuning）可在源域内部分缓解该缺口，但通过对运动方向概念向量（concept vector）的分析发现：视觉复杂度会显著削弱方向信号的强度，并严重制约模型在跨域场景下的泛化能力。为此，我们构建了MoDirect——一个专用于运动方向指令微调与评估的视频数据集系列；同时提出了DeltaDirect——一种以诊断驱动、作用于投影器层级的新型优化目标，其核心是基于相邻帧特征差值，直接预测归一化的二维运动向量。在合成数据基准测试集MoDirect-SynBench上，结合DeltaDirect进行指令微调后，模型的运动方向识别准确率从25.9%大幅提升至85.4%；而在真实世界视频基准测试集MoDirect-RealBench上，DeltaDirect在**未使用任何真实世界调优数据**的前提下，使模型在真实场景下的运动方向识别准确率相较原始基线模型提升了21.9个百分点，且完全不损害其在标准视频理解任务上的原有性能。代码地址：https://github.com/KHU-VLL/DeltaDirect

许愿开讲

PDF

解读

Tokenisation via Convex Relaxations

分词（Tokenisation）是当前自然语言处理（NLP）流程中不可或缺的一环。目前主流的分词算法（如字节对编码BPE和Unigram）均属于贪心算法——它们仅在局部范围内做出最优决策，而未将最终生成的整个词表作为一个整体加以通盘考量。我们转而将分词器的构建建模为一个线性规划问题，并借助凸优化工具求解，由此提出一种新算法，命名为ConvexTok。实验表明，ConvexTok在各项内在分词评价指标上均能实现稳定提升，并可降低语言模型所达到的每字节比特数（bits-per-byte, BpB）；它对下游任务性能亦有改善作用，但提升效果不如前者稳定。此外，ConvexTok允许用户针对特定优化目标，通过一个理论下界来量化评估其分词器距离全局最优解的差距；我们在实验中发现，在常用词表规模下，该算法所得结果与理论最优值的差距通常不超过1%。

许愿开讲

PDF

解读

Integrable Elasticity via Neural Demand Potentials

Carlos Heredia ,

Daniel Roncel

2026年05月21日

我们提出了可积上下文依赖型需求网络（Integrable Context-Dependent Demand Network, ICDN），这是一种以需求为先的神经网络模型，专为多品类零售场景下的需求预测而设计。该模型将对数需求（log-demand）学习为对数价格（log-prices）的平滑函数，且该函数显式地依赖于各类情境变量；因此，所有需求弹性均可直接、精确地从所学习到的需求曲面上解析推导得出。在Dominick’s啤酒数据集上的实验表明，相较于有向对数—对数基准模型（directed log-log benchmark），ICDN显著提升了样本外泛化能力，并生成了更为稳定、更符合经济学直觉的需求弹性估计结果——尤其在识别度较弱的交叉价格效应（cross-price effects）方面，其估计质量提升尤为突出。

许愿开讲

PDF

解读

Cambrian-P: Pose-Grounded Video Understanding

相机位姿至关重要。每个视角的位置与朝向共同定义了一个统一的空间坐标系，从而建立起视频各帧观测之间的空间关联。然而，当前面向视频理解的多模态大语言模型（MLLM）却普遍忽略了这一关键信号：它们将视频帧视为彼此孤立的二维图像快照，而非人类所感知的那种具有连续空间结构的持久化场景。我们重新审视相机位姿作为一种轻量级监督信号的价值，并提出Cambrian-P——一种专为视频理解设计的多模态大语言模型，其在每帧中引入可学习的相机标记（camera tokens），并配备专门用于位姿回归的预测头（pose regression head）。借助精心设计的采样策略，该模型在VSI-Bench等空间推理基准测试上取得了4.5%–6.5%的显著性能提升；同时，在另外八个涵盖空间推理与通用视频问答任务的基准测试中均展现出优异的泛化能力；此外，作为副产物，其在ScanNet数据集上实现了当前最优的流式相机位姿估计性能。尤为令人意外的是，仅使用野外采集视频自动生成的伪标注位姿进行训练，竟也能进一步提升通用视频问答基准的表现，表明相机位姿的作用远不止于空间推理本身。综上所述，这些结果共同确立了相机位姿作为视频模型理解物理世界的一项基础性信号地位。

许愿开讲

PDF

解读

MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

当前基于运动控制的图像到视频生成模型，严格遵循用户提供的运动轨迹，而这些轨迹往往稀疏、不精确且缺乏因果完整性。这种过度依赖易导致生成结果显得不自然或不合常理，尤其容易忽略由主运动所引发的次级因果效应。为解决这一问题，我们提出了MotiMotion——一种全新框架，将运动控制重新定义为“先推理、后生成”的任务。为促使生成结果具备扎实的因果基础并符合常识逻辑，我们采用一种无需训练的视觉-语言推理器（VLM），对主运动轨迹在图像空间中的坐标进行精细化修正，并合理“幻构”出符合物理与常识的次级运动。为进一步提升运动的自然性，我们提出一种置信度感知的控制机制：该机制动态调节控制强度，使模型在面对高置信度运动规划时能紧密跟随，在输入置信度较低时则依托其内在的生成先验自动修正伪影。为支持系统性评估，我们构建了一个全新的图像到视频基准数据集——MotiBench，其中所有场景均以交互为核心，且新事件均由主体运动直接触发。基于视觉-语言模型的自动评估及在MotiBench上开展的人类主观评测均表明：MotiMotion生成的视频中，物体行为更合理、交互更可信，其综合表现显著优于现有方法。

许愿开讲

PDF

解读

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

如今，语言模型必须具备“开箱即用”的泛化能力，以适应全新环境，并能嵌入推理规模扩展型的搜索流程（例如 AlphaEvolve）中——这类流程需依据多种任务特定的奖励函数，对模型生成的轨迹（rollouts）进行筛选。遗憾的是，当前大语言模型（LLM）后训练所采用的标准范式，仅优化一个预先设定的标量奖励值，这往往导致现有 LLM 生成的响应分布熵值偏低，因而难以展现出推理时搜索所必需的多样性。为此，我们提出向量策略优化（Vector Policy Optimization, VPO）——一种强化学习算法，其核心目标是显式地训练策略，使其能够预判下游可能出现的多种奖励函数，并主动产出多样化的解决方案。VPO 的设计充分利用了实践中奖励函数常为向量形式这一事实，例如在代码生成任务中，奖励可表示为每个测试用例是否通过的布尔向量；又如在面向不同用户画像或多个奖励模型的场景中，奖励亦可自然地建模为多维向量。VPO 本质上可作为 GRPO 优势估计器的即插即用式替代方案，但它训练语言模型输出一组解，其中每个解均在向量奖励空间的不同权衡维度上实现专业化。在四项任务上的实验表明，VPO 在测试时搜索性能（如 pass@k 和 best@k 指标）上达到或超越了最强的标量强化学习基线，且随着搜索预算增加，其性能优势愈发显著。在进化式搜索（evolutionary search）中，采用 VPO 训练的模型甚至能够解决 GRPO 模型完全无法应对的问题。随着测试时搜索技术日趋标准化，以多样性为目标的优化，或将逐步成为后训练阶段的默认优化目标。

许愿开讲

PDF

解读

AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

视觉-语言导航（VLN）要求智能体将自然语言指令与自身在视觉环境中的运动进行对齐。尽管当前最先进的方法利用视觉-语言模型（VLM）的推理能力，实现端到端的动作预测，但它们往往缺乏对智能体、指令与场景三者之间关系的显式建模与可解释性理解。相反，显式构建场景地图以支持启发式规划虽在直觉上颇具吸引力，却依赖额外的三维传感器输入，且会阻碍大规模视觉-语言预训练的开展。为弥合这一鸿沟，我们提出AwareVLN——一种全新框架，为导航模型赋予一种自感知推理机制，使其能够以完全端到端、数据驱动的方式，理解自身的状态及任务执行进度。本方法包含两大核心创新：（1）一个结构化推理模块，用以促进空间感知与任务导向的自感知能力；（2）一个配备进度划分功能的自动化数据引擎，以支撑高效训练。我们在Habitat仿真平台上的多个基准数据集上开展了大量实验，结果表明，AwareVLN显著超越了此前所有最先进的视觉-语言导航方法。项目主页：https://gwxuan.github.io/AwareVLN/

许愿开讲

PDF

解读

Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

探索是智能体在稀疏奖励、长时程任务（尤其是在三维环境中）中学习有效行为的前提条件。基于好奇心的强化学习方法通过引入内在奖励来应对这一挑战，该内在奖励源自智能体对世界所构建的预测模型与真实环境之间的偏差。然而，将这种内在动机成功迁移到复杂、逼真的照片级三维环境中仍十分困难：智能体容易陷入局部循环，且在重新访问先前遗忘的状态时反复获得“新鲜”奖励，从而阻碍真正有效的探索。本文研究表明，此类失败的根本原因在于缺乏空间上的持续性（spatial persistence）以及情节式上下文（episodic context）。我们指出，要实现有效的内在好奇心驱动，必须同时满足两个关键条件：其一，需构建一个具备空间持续性、并能持续在线更新的世界模型；其二，智能体自身须维护一段情节式的轨迹历史，以支撑其主动向新颖区域导航。为实现这一目标，我们采用一种在线三维重建机制作为持久化、可更新的世界模型；同时，将智能体策略参数化为一种以RGB图像序列为输入的序列模型，从而自然地保留情节式上下文信息。该设计不仅显著提升了训练阶段的探索效率，更确保智能体在部署时仅依赖原始RGB帧即可完成自主导航。我们在HM3D数据集上仅通过纯粹的内在好奇心信号进行端到端训练，结果表明，本方法在性能上全面超越了基于强化学习的主动建图基线方法，并能零样本泛化至Gibson数据集及AI生成的虚拟世界。此外，我们提出的端到端策略可高效适配各类下游任务（例如苹果采摘和图像目标导航），其表现亦明显优于从零开始训练的基线方法。相关视频演示请参见：https://recuriosity.github.io/。

许愿开讲

PDF

解读

GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations

视觉-语言-动作（VLA）模型通过统一感知与动作，在通用机器人操作任务中展现出强大潜力。然而，现有VLA系统主要依赖文本指令，在存在多个相似物体的复杂场景中，难以有效消除空间指代歧义。为解决这一局限，本文引入手势作为与文本并行的指令模态，并提出一种具备手势感知能力的视觉-语言-动作模型（GesVLA）。本方法将手势特征直接编码至模型隐空间，使其既能参与高层语义推理，也能驱动底层动作生成；同时采用双视觉语言模型（dual-VLM）架构，实现手势表征与动作策略之间的紧密耦合。在数据层面，我们构建了一条可扩展的手势数据生成流水线：通过将三维手部模型渲染至真实场景图像上，既显著缩小了仿真到现实的视觉域差距，又高效生成了涵盖丰富运动模式及对应指向标注的大规模多样化数据。此外，我们采用两阶段训练策略，使模型同步具备手势理解与动作预测能力。我们在多项真实机器人任务中对所提方法进行了评估，包括用于验证性能的受控积木操作任务，以及更具实用价值的产品与生鲜挑选等场景。实验结果表明，引入手势模态能持续提升目标定位精度与人机交互效率，尤其在环境复杂、物体密集的条件下优势更为显著。项目主页：https://gwxuan.github.io/GesVLA/

许愿开讲

PDF

解读

GS-QA: A Benchmark for Geospatial Question Answering

Majid Saeedan ,

Muhammad Shihab Rashid ,

Ahmed Eldawy ,

...

2026年05月21日

许愿开讲

PDF

解读