活动
论文
风云榜
专栏
知识树
项目
社交
登录/注册
已选(0/)
重选
每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
今天
本周
本月
最新
Technical Report on the Checkfor.ai AI-Generated Text Classifier
Bradley Emi
,
Max Spero
2024年02月21日
我们推出了CheckforAI文本分类器,这是一个基于Transformer的神经网络,训练目的是区分由大型语言模型编写的文本和由人类编写的文本。在包括学生写作、创意写作、科学写作、书籍、百科全书、新闻、电子邮件、科学论文、短格式问答等十个文本领域和8个开源和闭源大型语言模型的综合基准测试中,CheckforAI的表现优于零-shot方法(例如DetectGPT)以及领先的商业AI检测工具,误差率低至其九倍以下。我们提出了一种训练算法,即使用合成镜像的硬负样本挖掘,使我们的分类器在评论等高数据领域实现了数量级更低的假阳性率。最后,我们展示了CheckforAI不对非英语母语人士存在偏见,并且在训练期间未曾涉及的领域和模型上具有普适性。
5288
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution
Robert Tjarko Lange
,
Yuki Imajuku
,
Edoardo Cetin
2025年09月17日
我们推出ShinkaEvolve:一个全新的开源框架,利用大语言模型(LLM)推动科学发现,在性能上达到先进水平,同时实现前所未有的高效性。近年来,扩大LLM推理时计算资源的应用取得了显著进展,推动了通用科学发现的发展。这些方法依赖于进化型智能体架构,将LLM用作变异算子以生成候选解。然而,当前的代码进化方法存在关键局限:样本效率低下,往往需要数千个样本来找到有效解;并且大多为闭源系统,限制了广泛采用和进一步扩展。ShinkaEvolve针对这些问题提出了三项关键创新:一种平衡探索与利用的父代采样技术、用于高效搜索空间探索的代码新颖性拒绝采样方法,以及基于多臂赌博机的LLM集成选择策略。我们在多种不同任务上对ShinkaEvolve进行了评估,结果一致显示出其在样本效率和解的质量方面均有提升。ShinkaEvolve仅用150个样本就发现了新的最先进圆 packing 解法,为AIME数学推理任务设计出高性能的智能体架构,优化了ALE-Bench竞赛编程问题的现有解法,并发现了新型的专家混合模型负载均衡损失函数,揭示了优化策略的新空间。我们的结果表明,ShinkaEvolve具有广泛的适用性和极高的样本效率。通过提供开源访问和成本效益,本研究使各类计算问题中的开放式科学发现变得更加普及和平等。
1432
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
The Generation Phases of Flow Matching: a Denoising Perspective
Anne Gagneux
,
Ségolène Martin
,
Rémi Gribonval
,
...
2025年10月28日
流匹配方法虽已取得显著成功,但影响其生成质量的因素仍不甚明了。在本研究中,我们采用去噪的视角,设计了一个框架以实证方式探究生成过程。通过建立流匹配模型与去噪器之间的形式化关联,我们为二者在生成与去噪任务上的性能比较提供了统一的基础。这使得我们能够设计出符合原理且可控的扰动手段来影响样本生成,即噪声扰动和漂移扰动。由此,我们获得了关于生成过程中不同动力学阶段的新见解,能够精确刻画去噪器在生成过程的哪个阶段成功或失败,并阐明这一现象为何重要。
1222
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
Statistical Machine Learning for Astronomy -- A Textbook
Yuan-Sen Ting
2025年06月13日
这本教材通过贝叶斯推理的视角,为天文学研究中的统计机器学习提供了系统性的处理方法,并建立了一个统一的框架,揭示了现代数据分析技术与传统统计方法之间的联系。我们展示了这些技术如何从熟悉的统计基础中衍生出来。一贯的贝叶斯视角强调了不确定性量化和统计严谨性,这是天文学科学推断所必需的核心要素。教材内容从概率理论和贝叶斯推理开始,逐步涵盖监督学习,包括带有测量不确定性的线性回归、逻辑回归和分类问题。无监督学习部分则涉及主成分分析和聚类方法。随后,我们介绍了通过采样和马尔可夫链蒙特卡罗(MCMC)等计算技术,接着探讨高斯过程作为概率非参数方法,以及在更广泛的统计背景下讨论神经网络。我们的教学方法以理论为中心,从基本原理出发推导每种方法,并进行完整的数学展开,注重统计洞察力,同时结合天文学应用实例。我们优先考虑理解算法为何有效、何时适用,以及它们如何与更广泛的统计原则相联系。教材内容逐步深入到现代技术,如神经网络,但始终基于经典方法及其理论基础。这种扎实的基础使得这些方法能够被明智地应用于天文学研究,确保对假设、局限性和不确定性传播的适当考量,从而推动大规模天文学调查时代的天文学知识发展。
1097
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
Real-World Offline Reinforcement Learning from Vision Language Model Feedback
Sreyas Venkataraman
,
Yufei Wang
,
Ziyu Wang
,
...
2024年11月08日
离线强化学习能够从预先收集的、次优的数据集中学习策略,而无需在线交互。这使其非常适合现实世界的机器人和安全关键场景,因为在这些场景中,收集在线数据或专家演示既缓慢又昂贵,且存在风险。然而,大多数现有的离线强化学习工作假设数据集已经用任务奖励进行了标注,这一过程通常需要大量的人力,特别是在真实世界中难以确定真实状态的情况下。在本文中,我们基于先前的工作,特别是RL-VLM-F,提出了一种新颖的系统,该系统使用视觉-语言模型的偏好反馈和任务的文本描述,自动为离线数据集生成奖励标签。我们的方法随后使用带有奖励标签的数据集通过离线强化学习来学习策略。我们展示了该系统在复杂的真实世界机器人辅助穿衣任务中的适用性,在这项任务中,我们首先使用视觉-语言模型在次优的离线数据集上学习奖励函数,然后利用所学的奖励函数采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及刚性和可变形物体操作的模拟任务中也表现出色,并显著优于行为克隆和逆向强化学习等基线方法。总之,我们提出了一种新的系统,能够从未标注的、次优的离线数据集中自动进行奖励标注和策略学习。
1097
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs
Yongjie Wang
,
Yue Yu
,
Kaisong Song
,
...
2025年10月10日
大型语言模型(LLM)凭借其强大的语言理解与生成能力,已推动了众多应用的发展。然而,由于LLM是在静态语料库上进行训练的,因此在应对快速变化的信息或特定领域问题时面临困难。检索增强生成(RAG)正是为克服这一局限而提出的,它通过将LLM与外部检索机制相结合,使其能够获取最新且上下文相关的知识。但随着LLM自身在规模和能力上的持续进步,传统RAG框架的相对优势已逐渐减弱,其必要性也受到质疑。本文对RAG进行了全面综述,首先介绍其总体目标与核心组成部分;随后分析RAG中的关键挑战,指出可能限制其效果的重要缺陷;最后展示了一些应用场景,在这些场景中,仅靠LLM表现不足,而将RAG与LLM结合则能显著提升性能。我们希望本研究能促使研究人员重新思考RAG的角色,并激励下一代RAG系统的研发。
1083
热度
PDF
解读
Multi-Embodiment Locomotion at Scale with extreme Embodiment Randomization
Nico Bohlinger
,
Jan Peters
2025年09月02日
我们提出了一种统一的通用运动策略,该策略在50种不同的足式机器人上进行了训练。通过结合改进的、感知本体结构的网络架构(URMAv2)与基于性能的课程学习方法,以应对极端的本体随机化,我们的策略学会了控制数百万种形态各异的机器人。该策略能够实现零样本迁移,成功应用于未见过的真实世界人形和四足机器人。
987
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
Trainable Dynamic Mask Sparse Attention
Jingze Shi
,
Yifan Wu
,
Bingheng Wu
,
...
2025年08月04日
在大型语言模型中,对建模长上下文的需求持续增长,但标准自注意力机制的二次复杂度常常成为瓶颈。尽管现有的稀疏注意力机制在效率上有所提升,但仍可能遇到静态模式或信息丢失等问题。我们提出了一种可训练的动态掩码稀疏注意力机制——Dynamic Mask Attention(DMA),它有效地利用了内容感知和位置感知的稀疏性。 DMA通过两项关键创新实现这一目标:首先,它从值表示中动态生成内容感知的稀疏掩码,使模型能够自适应地识别并关注关键信息;其次,它实现了位置感知的稀疏注意力计算,有效跳过不必要的计算区域。这种双重稀疏性设计使模型在显著降低关键信息计算复杂度的同时,保留了完整的信息,在信息保真度与计算效率之间实现了出色的平衡。 我们通过全面的实验验证了DMA的性能。对比研究表明,在符合Chinchilla缩放定律设置的情况下,DMA在困惑度(perplexity)指标上优于多头注意力、滑动窗口注意力、多头隐注意力以及原生稀疏注意力等方法。此外,在具有挑战性的多查询关联记忆任务中,DMA也展现出了更优的性能与效率。尤为关键的是,在对17亿参数模型的评估中,DMA在标准基准测试性能以及“大海捞针”(needle-in-a-haystack)这一复杂任务中都显著优于多头注意力。这些实验结果突出了DMA在有效平衡模型效率与长上下文建模能力方面的出色表现。
912
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
Mapping 1,000+ Language Models via the Log-Likelihood Vector
Momose Oyama
,
Hiroaki Yamagiwa
,
Yusuke Takase
,
...
2025年02月22日
为了比较大规模的自回归语言模型,我们建议使用在预定义文本集上计算的对数似然向量作为模型特征。这种方法具有坚实的理论基础:当被视为模型坐标时,它们的平方欧几里得距离近似于文本生成概率的Kullback-Leibler散度。我们的方法具有高度的可扩展性,计算成本随模型数量和文本样本数量线性增长,并且易于实现,因为所需的特征是从交叉熵损失中得出的。将此方法应用于超过1,000个语言模型,我们构建了一个“模型地图”,为大规模模型分析提供了新的视角。
877
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读
Distributional Diffusion Models with Scoring Rules
Valentin De Bortoli
,
Alexandre Galashov
,
J. Swaroop Guntupalli
,
...
2025年02月04日
扩散模型生成高质量的合成数据。它们通过定义一个连续时间的前向过程来运作,该过程逐渐向数据中添加高斯噪声,直到数据完全被破坏。对应的逆向过程则逐步将高斯样本“去噪”,最终生成来自数据分布的样本。然而,生成高质量输出需要大量的离散化步骤以获得对逆向过程的忠实近似。这既昂贵又促使了许多加速方法的发展。我们提出通过学习给定噪声版本的干净数据样本的后验分布(而不仅仅是该分布的均值)来实现样本生成。这使得我们可以在粗略的时间尺度上从逆向过程的概率转换中采样,从而显著加速推理过程,并且对输出质量的影响最小。这是通过用评分规则替换用于估计条件均值的标准回归损失来实现的。我们在图像和机器人轨迹生成任务上验证了我们的方法,在少量离散化步骤的情况下,我们始终优于标准的扩散模型。
757
热度
许愿开讲
已成功许愿
社区会每周邀请许愿量TOP的论文作者,来社区直播开讲。为提升邀请成功率,你可分享给同行小伙伴,一起来许愿~
PDF
解读