每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
2025年10月22日
近年来,多模态模型取得了显著进展,展现出卓越的文本引导图像编辑能力,诸如GPT-4o和Nano-Banana等系统树立了新的标杆。然而,研究界的发展仍受限于缺乏基于真实图像构建的大规模、高质量且公开可用的数据集。我们推出了Pico-Banana-400K,这是一个面向指令式图像编辑的综合性数据集,包含40万张图像。该数据集利用Nano-Banana从OpenImages图像库中的真实照片生成多样化的图像编辑配对样本。与以往的合成数据集不同,Pico-Banana-400K的突出之处在于我们对质量和多样性的系统性把控。我们采用细粒度的图像编辑分类体系,确保涵盖广泛的编辑类型,同时借助基于多模态大语言模型(MLLM)的质量评分机制和精心筛选,保障内容的高度保留以及对编辑指令的准确遵循。除了支持单轮编辑任务外,Pico-Banana-400K还为复杂编辑场景的研究提供了可能。该数据集包含三个专门的子集:(1)一个包含7.2万样本的多轮编辑集合,用于研究连续修改过程中的序列化编辑、推理与规划能力;(2)一个包含5.6万样本的偏好子集,适用于对齐研究和奖励模型训练;(3)成对的长短编辑指令,可用于开发指令重写与摘要能力。通过提供这一规模庞大、质量高、任务丰富的资源,Pico-Banana-400K为下一代文本引导图像编辑模型的训练与基准测试奠定了坚实的基础。
502
热度
许愿开讲
PDF
解读
How Do LLMs Use Their Depth?
2025年10月21日
越来越多的证据表明,大语言模型并未均匀地使用其网络深度,但我们对其各层预测动态的细致理解仍然不足。本文通过追踪多个开源权重模型在推理过程中的中间表征,揭示了模型对深度结构化且精细的利用方式。具体而言,我们提出了一种“先猜测后 refinement(精炼)”的框架,用以解释大语言模型如何在内部组织计算过程以生成预测。我们首先发现,在模型较早的高层中,排名靠前的预测主要由高频词元构成,这些词元是模型在缺乏充分上下文信息时所做出的统计性初步猜测。随着模型层数加深,上下文信息逐渐丰富,这些初始猜测也随之被修正为更符合语境的词元。即使是早期层输出的高频词元预测,也有超过70%的情况在后续层中被修正,这说明正确的词元预测并非“一蹴而就”。随后,我们进一步超越基于频率的预测分析,通过三个案例研究探讨模型在不同任务中对层深度的动态使用情况:(i)词性分析显示,功能词平均而言是最先被准确预测的;(ii)事实回忆任务分析表明,在多词元答案中,第一个词元所需的计算深度大于其余词元;(iii)多项选择任务分析显示,模型通常在前半部分的层中便已识别出响应格式,但直到接近末尾才最终确定答案。综上所述,我们的研究结果深入揭示了大语言模型对网络深度的使用机制,阐明了支撑成功预测的逐层计算过程,也为未来提升基于Transformer架构模型的计算效率提供了重要启示。
449
热度
许愿开讲
PDF
解读
Value Flows
2025年10月09日
尽管当前大多数强化学习方法都将未来回报的分布简化为单一标量值,但基于分布的强化学习(distributional RL)方法则利用回报的完整分布来提供更强的学习信号,并支持在探索和安全强化学习中的应用。目前主流的回报分布估计方法是将其建模为离散区间上的类别分布,或估计有限数量的分位数;然而,这类方法难以揭示回报分布在细粒度结构上的特征,也无法有效识别具有高回报不确定性的状态以辅助决策。本文的核心思想是采用现代灵活的基于流(flow-based)的概率模型,对完整的未来回报分布进行建模,并识别出那些回报方差较高的状态。为此,我们提出了一种新的流匹配目标函数,通过生成满足分布贝尔曼方程的概率密度路径来实现这一目标。在此学习到的流模型基础上,我们引入一种新的流导数常微分方程(flow derivative ODE),用于估计不同状态的回报不确定性。此外,我们还利用这种不确定性信息,在特定转移上优先学习更精确的回报估计。我们将所提出的方法(Value Flows)与以往方法在离线以及在线到在线(online-to-online)设置下进行了比较。在37个基于状态和25个基于图像的基准任务上的实验结果表明,Value Flows在成功率上平均实现了1.3倍的提升。项目网站:https://pd-perry.github.io/value-flows 代码地址:https://github.com/chongyi-zheng/value-flows
386
热度
许愿开讲
PDF
解读
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
2025年09月30日
语言模型的能力日益增强,但在多位数乘法这一看似简单的任务上仍然表现不佳。在本研究中,我们通过逆向工程一个通过隐式思维链成功学会乘法的模型来探究其原因,并报告了三项发现:(1)长距离结构的证据:通过对对数几率归因分析和线性探测表明,该模型编码了实现多位数乘法所必需的长距离依赖关系。(2)机制:模型利用注意力机制构建有向无环图,通过“缓存”和“检索”成对的部分积来编码长距离依赖。(3)几何结构:模型的注意力头通过在数字对之间形成闵可夫斯基和来实现部分积,同时使用傅里叶基来表示数字;这两种表示方式都直观且高效,而标准微调模型却缺乏此类机制。基于这些发现,我们重新审视了标准微调的学习动态过程,发现模型收敛到了一个缺乏必要长距离依赖关系的局部最优解。为进一步验证这一理解,我们引入了一种辅助损失函数,通过线性回归探针预测“累加和”,从而提供一种归纳偏置,使模型能够成功学会多位数乘法。总之,通过对隐式思维链模型机制的逆向工程,我们揭示了Transformer模型在学习长距离依赖方面存在的一种缺陷,并提供了一个实例,说明正确的归纳偏置如何解决这一问题。
207
热度
许愿开讲
PDF
解读
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
2025年07月27日
多模态大语言模型(MLLMs)近年来取得了显著进展,这主要得益于它们处理越来越长且复杂上下文的能力,例如高分辨率图像、长时间视频序列以及长段音频输入。虽然这种能力极大地提升了MLLM的表现,但也带来了显著的计算挑战,主要源于自注意力机制的平方复杂度,特别是在面对大量输入token时。为缓解这些瓶颈,token压缩作为一种有前景且关键的方法逐渐兴起,能够在训练和推理过程中高效地减少token数量。 本文对这一快速发展的多模态长上下文token压缩领域进行了首次系统性的综述与整合。考虑到有效的压缩策略与各模态自身的特性及冗余密切相关,我们根据方法的主要数据关注点进行分类,使研究人员能够快速了解并掌握与其研究领域相关的技术:(1)以图像为中心的压缩方法,主要应对视觉数据中的空间冗余;(2)以视频为中心的压缩方法,旨在处理动态序列中的时空冗余;(3)以音频为中心的压缩方法,用于处理音频信号中的时间与频谱冗余。除了基于模态的分类,我们还根据方法的核心机制进行了进一步的梳理,包括基于变换、基于相似性、基于注意力以及基于查询的压缩方法。 通过提供全面且结构清晰的概述,本综述旨在整合当前的研究进展,指出关键挑战,并为未来的研究方向提供启发。同时,我们维护了一个公开的代码库,以持续追踪并更新这一前景广阔领域的最新进展。
196
热度
许愿开讲
PDF
解读