每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Text-to-LoRA: Instant Transformer Adaption
2025年06月06日
虽然基础模型为快速生成内容提供了一种通用工具,但它们通常需要针对特定任务进行调整。传统上,这一过程涉及精心策划数据集以及对底层模型的反复微调。微调技术使从业者能够将基础模型适应许多新应用,但这种方法不仅成本高昂且耗时较长,而且对超参数的选择极为敏感。为克服这些局限性,我们提出了文本到LoRA(T2L),这是一种能够根据目标任务的自然语言描述实时调整大型语言模型(LLMs)的模型。T2L 是一个超网络,经过训练后可以通过一次低成本的前向传播来构建 LoRAs。在使用包含 9 个预训练 LoRA 适配器(如 GSM8K、Arc 等)的数据集对 T2L 进行训练后,我们发现,通过 T2L 即兴重建的 LoRA 实例在相应测试集上的表现与任务专用适配器相匹配。此外,T2L 能够压缩数百个 LoRA 实例,并以零样本的方式推广到完全未见过的任务。这种方法为实现基础模型专业化的民主化迈出了重要一步,并能够在极低计算需求下实现基于语言的模型调整。 我们的代码可在以下链接获取:https://github.com/SakanaAI/text-to-lora
4763
热度
许愿开讲
PDF
解读
Kimi k1.5: Scaling Reinforcement Learning with LLMs
2025年01月22日
使用下一个标记预测的语言模型预训练已被证明在扩展计算资源方面非常有效,但受限于可用训练数据的数量。扩展强化学习(RL)为人工智能的持续改进开辟了新的方向,有望使大型语言模型(LLMs)通过奖励机制学习探索,从而扩展其训练数据。然而,先前发表的工作尚未产生具有竞争力的结果。鉴于此,我们报告了Kimi k1.5的训练实践,这是我们最新的多模态LLM,采用RL进行训练,包括其RL训练技术、多模态数据配方和基础设施优化。长上下文扩展和改进的策略优化方法是我们方法的关键要素,建立了简单而有效的RL框架,无需依赖更复杂的技巧,如蒙特卡洛树搜索、价值函数和过程奖励模型。值得注意的是,我们的系统在多个基准测试和模态上实现了最先进的推理性能——例如,在AIME上达到77.5分,在MATH 500上达到96.2分,在Codeforces上达到第94百分位,在MathVista上达到74.9分——与OpenAI的o1相当。此外,我们提出了有效的长到短(long2short)方法,利用长链思考(long-CoT)技术来改进短链思考(short-CoT)模型,从而在短-CoT推理方面取得最先进的结果——例如,在AIME上达到60.8分,在MATH500上达到94.6分,在LiveCodeBench上达到47.3分——大幅超越现有的短-CoT模型,如GPT-4o和Claude Sonnet 3.5(最高提升达550%)。
2701
热度
许愿开讲
PDF
解读
Eliciting Reasoning in Language Models with Cognitive Tools
2025年06月13日
近期,像 OpenAI 的 o1 这样的推理模型的出现,引发了人工智能社区对封闭模型中这些能力背后机制的热烈猜测,随后开源社区尤其掀起了一波复制这些模型的努力。DeepSeek-R1 的展示在很大程度上平息了这些猜测,证明了通过基础大语言模型(LLM)结合思维链(chains-of-thought)和强化学习(RL),可以有效复制推理能力。然而,探索理论上的替代方法以激发推理仍然具有价值,这不仅可以帮助揭示潜在机制,还能提供可能带来互补优势的额外方法。 在此,我们基于认知心理学和认知架构领域的长期研究展开工作,该领域假设推理源于一组模块化、预先确定的认知操作的有序、序列化执行。关键在于,我们在现代代理工具调用框架内实现了这一核心思想。具体而言,我们为一个 LLM 配备了一组小型的“认知工具”,每个工具封装了特定的推理操作,并由 LLM 自身执行。令人惊讶的是,这种简单的策略在标准数学推理基准测试中显著提升了性能,无论是闭源模型还是开源权重模型,均优于基础 LLM。例如,为 GPT-4.1 提供我们的“认知工具”后,其在 AIME2024 上的 pass@1 性能从 26.7% 提升至 43.3%,使其非常接近 o1-preview 的表现。 除了实际意义外,这一演示还为关于大语言模型推理能力来源的争论做出了贡献:是后训练方法激发了推理能力,还是预训练过程中获得的固有能力起了主要作用?以及后训练是否仅仅是揭示了这些潜在能力?
1311
热度
许愿开讲
PDF
解读
Polarization by Design: How Elites Could Shape Mass Preferences as AI Reduces Persuasion Costs
2025年12月03日
在民主制度下,重大政策决策通常需要某种形式的多数同意或共识,因此精英阶层必须获得大众支持才能实现治理。历史上,精英只能通过有限的手段(如教育和大众媒体)来塑造公众支持;而人工智能驱动的说服技术进步则显著降低了影响舆论的成本,并提高了其精准度,使得公众偏好的分布本身成为可以刻意设计的对象。我们构建了一个动态模型,描述精英在说服成本和多数决规则约束下,如何决定对政策偏好分布进行多大程度的重塑。当仅存在单一精英时,任何最优干预都会倾向于推动社会走向更加两极分化的意见格局——即一种“极化引力”,而说服技术的改进会加速这种趋势。当两个对立的精英交替掌权时,同样的技术也会激励各方将社会“停放”在意见更趋一致、对手更难逆转的“半锁定”区域,因此说服技术的进步可能加剧也可能缓解极化,具体取决于所处环境。总体而言,随着人工智能能力的发展,更低廉的说服技术使极化从一种纯粹自发的社会副产品,转变为一种有意识的治理策略工具,这对民主制度的稳定性具有深远影响。
1194
热度
许愿开讲
PDF
解读
Statistical Machine Learning for Astronomy -- A Textbook
2025年06月13日
这本教材通过贝叶斯推理的视角,为天文学研究中的统计机器学习提供了系统性的处理方法,并建立了一个统一的框架,揭示了现代数据分析技术与传统统计方法之间的联系。我们展示了这些技术如何从熟悉的统计基础中衍生出来。一贯的贝叶斯视角强调了不确定性量化和统计严谨性,这是天文学科学推断所必需的核心要素。教材内容从概率理论和贝叶斯推理开始,逐步涵盖监督学习,包括带有测量不确定性的线性回归、逻辑回归和分类问题。无监督学习部分则涉及主成分分析和聚类方法。随后,我们介绍了通过采样和马尔可夫链蒙特卡罗(MCMC)等计算技术,接着探讨高斯过程作为概率非参数方法,以及在更广泛的统计背景下讨论神经网络。我们的教学方法以理论为中心,从基本原理出发推导每种方法,并进行完整的数学展开,注重统计洞察力,同时结合天文学应用实例。我们优先考虑理解算法为何有效、何时适用,以及它们如何与更广泛的统计原则相联系。教材内容逐步深入到现代技术,如神经网络,但始终基于经典方法及其理论基础。这种扎实的基础使得这些方法能够被明智地应用于天文学研究,确保对假设、局限性和不确定性传播的适当考量,从而推动大规模天文学调查时代的天文学知识发展。
1097
热度
许愿开讲
PDF
解读
Scaling Agent Learning via Experience Synthesis
2025年11月05日
尽管强化学习(RL)能够通过交互实现自主智能体的自我提升,但其实际应用仍面临诸多挑战,包括高昂的 rollout 成本、任务多样性不足、奖励信号不可靠以及基础设施复杂等问题,这些因素共同阻碍了可扩展经验数据的收集。为应对这些挑战,我们提出了 DreamGym,这是首个以可扩展性为核心设计的统一框架,旨在合成多样化经验,从而支持对自主智能体进行高效的在线强化学习训练。DreamGym 不依赖于昂贵的真实环境 rollout,而是将环境动态提炼为一种基于推理的经验模型,该模型通过逐步推理生成一致的状态转移和反馈信号,从而实现可扩展的智能体 rollout 数据采集。为了提高状态转移的稳定性与质量,DreamGym 利用一个经验回放缓冲区,该缓冲区初始时包含离线真实世界数据,并持续融入新的交互数据,以主动支持智能体的训练过程。为了提升知识获取效率,DreamGym 能够自适应地生成新的任务,以挑战当前智能体的策略,从而实现更有效的在线课程学习。在多种不同环境和智能体架构上的实验表明,DreamGym 在完全合成的场景以及从仿真到现实的迁移场景中均显著提升了强化学习的训练效果。在 WebArena 等原本不适用于强化学习的任务上,DreamGym 的表现超过所有基线方法 30% 以上;而在适合强化学习但成本高昂的场景中,仅使用合成交互即可达到与 GRPO 和 PPO 相当的性能。当将在纯合成经验上训练出的策略迁移到真实环境的强化学习中时,DreamGym 在大幅减少真实世界交互需求的同时,带来了显著的额外性能提升,为通用型强化学习提供了一种可扩展的预热启动策略。
1096
热度
许愿开讲
PDF
解读