每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Steering Language Models with Weight Arithmetic
2025年11月07日
在多样化的训练分布上为大语言模型(LLMs)提供高质量反馈可能既困难又昂贵,而仅在狭窄分布上提供反馈则可能导致意外的泛化行为。为了更有效地利用有限的训练数据,我们提出了一种称为对比权重引导(contrastive weight steering)的简单后训练方法,该方法通过权重运算直接修改模型参数。具体而言,我们通过对两次小规模微调所产生的权重变化量进行相减——一次微调诱导出期望的行为,另一次诱导其相反行为——从而在权重空间中分离出一个表征特定行为的方向,然后通过添加或移除该方向来调整模型权重。我们将这一技术应用于抑制谄媚倾向(sycophancy)以及诱导模型偏离预期行为,发现与激活引导相比,权重引导通常具有更强的泛化能力,能够在不影响模型通用性能的前提下实现更有效的跨分布行为控制。此外,我们还表明,在特定任务微调的背景下,权重引导可部分缓解不良的行为偏移:它能在保持任务性能提升的同时,减少微调过程中引入的谄媚行为和过度回应(under-refusals)。最后,我们提供了初步证据表明,可以通过测量微调更新与某个“恶意”权重方向之间的相似性来检测新出现的模型偏离行为,这意味着未来或许有可能在训练过程中持续监控权重演变,进而识别出那些在训练或评估阶段从未显现的罕见不一致行为。
443
热度
许愿开讲
PDF
解读
Kosmos: An AI Scientist for Autonomous Discovery
2025年11月04日
以数据驱动的科学发现需要经历文献检索、提出假设和数据分析的反复循环过程。尽管在能够自动化开展科学研究的人工智能代理方面已取得显著进展,但现有各类系统均受限于其在失去连贯性之前所能执行的操作数量,从而限制了它们发现成果的深度。本文提出了Kosmos,一种实现数据驱动科学发现自动化的AI科学家。给定一个开放性的研究目标和一个数据集后,Kosmos可连续运行长达12小时,执行多轮并行的数据分析、文献检索和假设生成,最终将发现成果整合成科学报告。与以往系统不同,Kosmos采用一种结构化的世界模型,使数据分析代理和文献检索代理之间能够共享信息。该世界模型使Kosmos能够在超过200次的代理推演过程中始终保持连贯性,每次运行平均共执行约42,000行代码,并阅读1,500篇论文。Kosmos报告中的每一项陈述均通过代码或原始文献加以引用,确保其推理过程可追溯。独立科学家评估发现,Kosmos报告中79.4%的陈述是准确的;合作研究人员表示,单次包含20个循环的Kosmos运行平均相当于他们自身六个月的研究工作量。此外,合作者指出,Kosmos产生的有价值科学发现的数量随运行循环次数呈线性增长(实验最多验证至20个循环)。我们重点介绍了Kosmos在代谢组学、材料科学、神经科学和统计遗传学等领域取得的七项科学发现:其中三项独立重现了Kosmos运行时并未接触过的预印本或未发表手稿中的研究成果,另外四项则为科学文献作出了全新的贡献。
75
热度
许愿开讲
PDF
解读
Priors in Time: Missing Inductive Biases for Language Model Interpretability
2025年11月03日
从语言模型的激活状态中恢复出有意义的概念,是可解释性研究的核心目标。现有的特征提取方法旨在识别那些相互独立的方向性概念,但目前尚不清楚这一假设是否足以捕捉语言丰富的时序结构。具体而言,通过贝叶斯视角,我们发现稀疏自编码器(SAE)所施加的先验假设了概念在时间上的独立性,这意味着其隐含了平稳性的前提。然而,语言模型的表征却展现出复杂的时序动态特性,包括概念维度的系统性增长、依赖上下文的相关性,以及显著的非平稳性,这些都与SAE的先验假设直接相悖。受计算神经科学的启发,我们提出了一种新的可解释性目标——时序特征分析(Temporal Feature Analysis),该方法引入了时序上的归纳偏置,将某一时刻的表征分解为两个部分:一个可预测的成分,即能够从上下文中推断出的部分;以及一个残差成分,用于捕捉上下文无法解释的新颖信息。时序特征分析器能够正确解析歧义句(garden path sentences)、识别事件边界,并更广泛地区分抽象的、缓慢变化的信息与新颖的、快速变化的信息;而现有的稀疏自编码器在上述所有任务中均暴露出明显缺陷。总体而言,我们的研究结果强调,在设计鲁棒的可解释性工具时,必须采用与数据特性相匹配的归纳偏置。
64
热度
许愿开讲
PDF
解读
REFRAG: Rethinking RAG based Decoding
2025年09月01日
大语言模型(LLMs)在利用广泛的外部知识来增强多轮对话和智能代理应用(例如检索增强生成,RAG)中的响应质量方面表现出色。然而,处理长上下文输入会带来显著的系统延迟,并需要大量内存来存储键值缓存(key-value cache),从而降低了吞吐量,并在知识丰富性与系统效率之间形成了一种根本性的权衡。虽然减少长上下文输入带来的延迟是大语言模型的主要目标之一,但我们认为RAG应用需要特别的考量。 在RAG中,大语言模型的上下文通常由检索出的多个段落拼接而成,其中只有少数部分与当前查询直接相关。这些段落由于在重排序过程中进行了多样性增强或去重处理,往往语义相似度较低,导致注意力机制呈现出块对角线模式,这与标准的大语言模型生成任务中的注意力模式不同。基于这一观察,我们认为在解码过程中对RAG上下文的大多数计算是不必要的,可以在几乎不影响性能的前提下予以消除。 为此,我们提出了REFRAG,一个高效的解码框架,通过压缩、感知和扩展三个阶段来改善RAG应用中的延迟问题。借助对上下文稀疏结构的利用,我们实现了首词生成时间(time-to-first-token)加速30.85倍(相比之前的工作提升了3.75倍),且没有造成困惑度(perplexity)的损失。此外,我们针对长上下文的大规模优化框架使REFRAG能够将大语言模型的上下文长度扩展至原来的16倍。 我们在多种长上下文任务中对REFRAG进行了全面验证,包括RAG、多轮对话和长文档摘要等场景,覆盖了多个数据集。实验结果表明,在不同上下文长度下,与LLaMA系列模型及其他最先进的基线方法相比,REFRAG在不损失准确率的前提下实现了显著的加速效果。
47
热度
PDF
解读
EGMOF: Efficient Generation of Metal-Organic Frameworks Using a Hybrid Diffusion-Transformer Architecture
2025年11月05日
由于化学空间极为庞大且具有性质标注的数据稀少,设计具备目标性能的材料仍然充满挑战。尽管近年来生成模型的发展为逆向材料设计提供了颇具前景的途径,但大多数方法需要大量数据,并且每当目标性质发生变化时都必须重新训练模型。本文提出了EGMOF(高效金属有机框架生成模型),这是一种混合扩散-Transformer框架,通过模块化、基于描述符中介的工作流程克服了上述局限。EGMOF将逆向设计分解为两个步骤:(1)一维扩散模型(Prop2Desc),将期望的性质映射到具有化学意义的描述符;随后(2)利用Transformer模型(Desc2MOF)根据这些描述符生成相应的结构。这种模块化的混合设计使得模型只需极少的再训练,即便在数据量较小的情况下仍能保持高准确性。在氢气吸附数据集上的实验表明,EGMOF实现了超过95%的有效性和84%的命中率,相较于现有方法,有效性提升了最高达57%,命中率提升了14%,并且仅使用1,000个训练样本时依然表现优异。此外,我们的模型成功实现了在29个不同性质数据集上的条件生成,包括CoREMOF、QMOF以及通过文本挖掘获得的实验数据集,而此前的模型均未能实现这一点。本研究提出了一种数据效率高、通用性强的多类MOF逆向设计方法,并凸显了模块化逆向设计工作流程在更广泛材料发现中的巨大潜力。
45
热度
许愿开讲
PDF
解读
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
2025年10月27日
强化学习(RL)在提升大语言模型(LLM)的推理能力方面已展现出巨大潜力。然而,当前将强化学习应用于大语言模型的成功严重依赖人工整理的数据集和可验证的奖励机制,这限制了其可扩展性和通用性。近期出现的自对弈强化学习方法受到该范式在游戏和围棋领域成功应用的启发,旨在无需人工标注数据的情况下增强大语言模型的推理能力。但这些方法主要依赖于具有明确反馈环境的系统(例如Python解释器或游戏引擎),难以推广到更广泛的通用领域。为应对上述挑战,我们提出了多智能体进化框架(Multi-Agent Evolve, MAE),使大语言模型能够在解决各类任务(包括数学问题、逻辑推理以及通用知识问答)的过程中实现自我进化。MAE的核心设计基于由同一语言模型实例化的三个相互协作的智能体——提议者(Proposer)、解题者(Solver)和评判者(Judge),并通过强化学习优化它们的行为。其中,提议者生成问题,解题者尝试解答,评判者则对两者的表现进行评估,并推动三者共同进化。在Qwen2.5-3B-Instruct模型上的实验表明,MAE在多个基准测试中平均提升了4.54%的性能。结果证明,MAE是一种可扩展且数据效率高的方法,能够在极少依赖人工干预的前提下有效增强大语言模型的通用推理能力。
34
热度
许愿开讲
PDF
解读
Why Less is More (Sometimes): A Theory of Data Curation
2025年11月05日
本文提出一个理论框架,用以解决现代机器学习中的一个核心悖论:在什么情况下使用更少的数据反而更好?随着传统“越多越好”(Sun 等,2025)的标度律受到挑战,这一问题变得尤为关键。新兴方法如 LIMO(“越少越好”)和 s1(Ye 等,2025;Muenighoff 等,2025)表明,通过精心筛选的小规模数据集即可实现更优性能。本文研究了一类数据筛选策略,其中由一个不完美的 oracle 根据样本的难度和正确性来选择训练样本。我们的结果给出了在标签无关和标签感知两种筛选规则下测试误差的精确标度律曲线,揭示了为何仅保留部分数据反而能够提升泛化能力。与经典标度律不同,我们证明在特定条件下,经过筛选的小数据集可以优于完整数据集,并通过推导与数据规模和质量相关的精确相变曲线,给出了该现象发生的解析条件。我们在 ImageNet 上进行了实验验证,证实了理论预测:筛选确实能在特定情形下提升模型准确率,甚至可缓解模型崩溃现象。此外,我们的框架还为近期在大语言模型数学推理任务中观察到的相互矛盾的数据筛选策略提供了系统性的解释。
28
热度
许愿开讲
PDF
解读