每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
ViLBench: A Suite for Vision-Language Process Reward Modeling
2025年03月26日
过程监督奖励模型(PRM)作为一种精细粒度的函数,为模型响应提供了详细的逐步骤反馈,有助于为复杂任务有效选择推理轨迹。尽管其具有诸多优势,但对 PRM 的评估仍较少被研究,特别是在多模态领域。为填补这一空白,本文首先在多个视觉-语言基准上评估了当前的视觉大语言模型(VLLM),将其作为两种类型的奖励模型:输出奖励模型(ORM)和过程奖励模型(PRM)进行基准测试。结果表明,无论是 ORM 还是 PRM,在所有任务中都没有表现出一致的优势,并且性能优越的 VLLM 并不一定能带来更好的奖励性能。为进一步推动评估,我们引入了 ViLBench,这是一个专门设计需要密集过程奖励信号的视觉-语言基准。值得注意的是,OpenAI 的 GPT-4o 在结合链式思维(CoT)的情况下仅达到 27.3% 的准确率,这表明该基准对当前的 VLLM 构成了相当大的挑战。最后,我们初步展示了一条弥合通用 VLLM 和奖励模型之间差距的有前景路径——通过使用增强的树搜索算法收集了 73.6 万条视觉-语言过程奖励数据,我们的 30 亿参数模型能够在 ViLBench 上通过选择 OpenAI o1 的生成结果,平均比标准 CoT 提高 3.3%,相较于未训练的版本最多提升 2.5%。我们已将代码、模型和数据的实现发布在 https://ucsc-vlaa.github.io/ViLBench。
175
热度
PDF
解读
Graph neural networks extrapolate out-of-distribution for shortest paths
2025年03月24日
尽管神经网络(NNs)取得了成功并被广泛采用,它们在处理分布外(OOD,Out-of-Distribution)数据时仍然面临挑战,即对训练数据集中未充分表示的输入进行泛化的能力较弱。当模型部署到与训练集显著不同的环境中时,解决OOD泛化差距变得至关重要,例如将训练于小图的图神经网络(GNNs)应用于大型现实世界图。一种实现稳健OOD泛化的有前景的方法是神经算法对齐框架,该框架通过设计类似于特定算法范式(例如动态规划)的神经网络架构,融入了经典算法的思想。期望这种形式的训练模型能够具备更强的OOD能力,就像经典算法可以适用于所有实例一样。我们严格分析了算法对齐在实现OOD泛化中的作用,重点关注应用于经典最短路径问题的图神经网络(GNNs)。我们证明了,通过在少量最短路径实例上最小化稀疏正则化损失训练的GNNs,能够精确实现用于最短路径的贝尔曼-福特(Bellman-Ford, BF)算法。事实上,如果一个GNN将该损失最小化至误差为$\epsilon$,那么它将以$O(\epsilon)$的误差实现BF算法。因此,即使训练数据有限,这些GNNs也能保证外推到任意最短路径问题,包括任意规模的实例。我们的实证结果支持了这一理论,表明通过梯度下降训练的神经网络能够在实践中最小化该损失并实现外推。
160
热度
PDF
解读
Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration
2025年03月10日
利用主动探索的语言模型对齐(或强化学习)技术——刻意鼓励模型生成多样且富有信息量的响应——展现出超越人类能力的潜力。然而,目前对于如何通过语言模型实现计算高效的探索,其算法设计的基本原理仍了解有限。为了更好地理解如何利用强大的预训练生成模型来提高探索效率,我们提出了一种新的基于语言模型的强化学习计算框架,在该框架中,学习者通过采样预言机与模型进行交互。 针对线性 Softmax 模型参数化,我们提供了以下新结果,揭示了高效探索中的计算与统计权衡: 1. **覆盖的重要性**:覆盖指预训练模型在多大程度上包含接近最优响应的能力——一种隐藏的知识形式。我们证明,尽管覆盖不是数据效率的必要条件,但它为框架内任何算法的运行时间设定了下限。 2. **推理时探索**:我们提出了一种新算法 SpannerSampling,该算法在预训练模型具有足够覆盖的情况下,能够达到最优的数据效率,并且计算高效,匹配我们的理论下界。SpannerSampling 利用预训练模型在推理阶段的计算能力,缩小了探索的有效搜索空间。 3. **训练时干预的不足**:我们通过对比表明,仅依赖训练阶段的干预生成合适的策略,无法在多项式时间内达到类似保证。 4. **多轮探索的计算优势**:最后,我们在额外的表示假设下证明,通过多轮探索可以改进运行时间(将序列级别的覆盖要求降低为标记级别的覆盖)。
136
热度
PDF
解读