每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution
2025年09月17日
我们推出ShinkaEvolve:一个全新的开源框架,利用大语言模型(LLM)推动科学发现,在性能上达到先进水平,同时实现前所未有的高效性。近年来,扩大LLM推理时计算资源的应用取得了显著进展,推动了通用科学发现的发展。这些方法依赖于进化型智能体架构,将LLM用作变异算子以生成候选解。然而,当前的代码进化方法存在关键局限:样本效率低下,往往需要数千个样本来找到有效解;并且大多为闭源系统,限制了广泛采用和进一步扩展。ShinkaEvolve针对这些问题提出了三项关键创新:一种平衡探索与利用的父代采样技术、用于高效搜索空间探索的代码新颖性拒绝采样方法,以及基于多臂赌博机的LLM集成选择策略。我们在多种不同任务上对ShinkaEvolve进行了评估,结果一致显示出其在样本效率和解的质量方面均有提升。ShinkaEvolve仅用150个样本就发现了新的最先进圆 packing 解法,为AIME数学推理任务设计出高性能的智能体架构,优化了ALE-Bench竞赛编程问题的现有解法,并发现了新型的专家混合模型负载均衡损失函数,揭示了优化策略的新空间。我们的结果表明,ShinkaEvolve具有广泛的适用性和极高的样本效率。通过提供开源访问和成本效益,本研究使各类计算问题中的开放式科学发现变得更加普及和平等。
1432
热度
许愿开讲
PDF
解读
Statistical Machine Learning for Astronomy -- A Textbook
2025年06月13日
这本教材通过贝叶斯推理的视角,为天文学研究中的统计机器学习提供了系统性的处理方法,并建立了一个统一的框架,揭示了现代数据分析技术与传统统计方法之间的联系。我们展示了这些技术如何从熟悉的统计基础中衍生出来。一贯的贝叶斯视角强调了不确定性量化和统计严谨性,这是天文学科学推断所必需的核心要素。教材内容从概率理论和贝叶斯推理开始,逐步涵盖监督学习,包括带有测量不确定性的线性回归、逻辑回归和分类问题。无监督学习部分则涉及主成分分析和聚类方法。随后,我们介绍了通过采样和马尔可夫链蒙特卡罗(MCMC)等计算技术,接着探讨高斯过程作为概率非参数方法,以及在更广泛的统计背景下讨论神经网络。我们的教学方法以理论为中心,从基本原理出发推导每种方法,并进行完整的数学展开,注重统计洞察力,同时结合天文学应用实例。我们优先考虑理解算法为何有效、何时适用,以及它们如何与更广泛的统计原则相联系。教材内容逐步深入到现代技术,如神经网络,但始终基于经典方法及其理论基础。这种扎实的基础使得这些方法能够被明智地应用于天文学研究,确保对假设、局限性和不确定性传播的适当考量,从而推动大规模天文学调查时代的天文学知识发展。
1097
热度
许愿开讲
PDF
解读
Real-World Offline Reinforcement Learning from Vision Language Model Feedback
2024年11月08日
离线强化学习能够从预先收集的、次优的数据集中学习策略,而无需在线交互。这使其非常适合现实世界的机器人和安全关键场景,因为在这些场景中,收集在线数据或专家演示既缓慢又昂贵,且存在风险。然而,大多数现有的离线强化学习工作假设数据集已经用任务奖励进行了标注,这一过程通常需要大量的人力,特别是在真实世界中难以确定真实状态的情况下。在本文中,我们基于先前的工作,特别是RL-VLM-F,提出了一种新颖的系统,该系统使用视觉-语言模型的偏好反馈和任务的文本描述,自动为离线数据集生成奖励标签。我们的方法随后使用带有奖励标签的数据集通过离线强化学习来学习策略。我们展示了该系统在复杂的真实世界机器人辅助穿衣任务中的适用性,在这项任务中,我们首先使用视觉-语言模型在次优的离线数据集上学习奖励函数,然后利用所学的奖励函数采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及刚性和可变形物体操作的模拟任务中也表现出色,并显著优于行为克隆和逆向强化学习等基线方法。总之,我们提出了一种新的系统,能够从未标注的、次优的离线数据集中自动进行奖励标注和策略学习。
1097
热度
许愿开讲
PDF
解读
Trainable Dynamic Mask Sparse Attention
2025年08月04日
在大型语言模型中,对建模长上下文的需求持续增长,但标准自注意力机制的二次复杂度常常成为瓶颈。尽管现有的稀疏注意力机制在效率上有所提升,但仍可能遇到静态模式或信息丢失等问题。我们提出了一种可训练的动态掩码稀疏注意力机制——Dynamic Mask Attention(DMA),它有效地利用了内容感知和位置感知的稀疏性。 DMA通过两项关键创新实现这一目标:首先,它从值表示中动态生成内容感知的稀疏掩码,使模型能够自适应地识别并关注关键信息;其次,它实现了位置感知的稀疏注意力计算,有效跳过不必要的计算区域。这种双重稀疏性设计使模型在显著降低关键信息计算复杂度的同时,保留了完整的信息,在信息保真度与计算效率之间实现了出色的平衡。 我们通过全面的实验验证了DMA的性能。对比研究表明,在符合Chinchilla缩放定律设置的情况下,DMA在困惑度(perplexity)指标上优于多头注意力、滑动窗口注意力、多头隐注意力以及原生稀疏注意力等方法。此外,在具有挑战性的多查询关联记忆任务中,DMA也展现出了更优的性能与效率。尤为关键的是,在对17亿参数模型的评估中,DMA在标准基准测试性能以及“大海捞针”(needle-in-a-haystack)这一复杂任务中都显著优于多头注意力。这些实验结果突出了DMA在有效平衡模型效率与长上下文建模能力方面的出色表现。
912
热度
许愿开讲
PDF
解读