AI热门论文

The Elements of Differentiable Programming

Mathieu Blondel ,

2024年03月21日

人工智能近来取得了显著进展，这得益于大型模型、海量数据集、加速硬件以及可微编程的变革性能力。这种新的编程范式使得复杂计算机程序（包括具有控制流和数据结构的程序）的端到端微分成为可能，从而实现了基于梯度的程序参数优化。作为一种新兴的编程范式，可微编程基于计算机科学和应用数学的多个领域，包括自动微分、图形模型、优化和统计学。本书全面回顾了可微编程的基本概念。我们采用了两个主要视角，即优化和概率，两者之间有明显的类比关系。可微编程不仅仅是程序的微分，还包括旨在进行微分的程序的深思熟虑的设计。通过使程序可微分，我们本质上引入了其执行的概率分布，提供了一种量化与程序输出相关的不确定性的手段。

986

ML

AI

cs.PL

PDF

解读

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

Matthias Gerstgrasser ,

Rylan Schaeffer ,

2024年04月01日

随着生成模型的不断涌现，加上在网络规模数据上的预训练，一个及时的问题浮现：当这些模型用自己生成的输出进行训练时会发生什么？最近的研究发现，模型和数据之间的反馈循环可能导致模型崩溃，即性能随着每次模型拟合迭代而逐渐降低，直到最新的模型变得无用。然而，最近几篇研究模型崩溃的论文假设新数据随时间取代旧数据，而不是假设数据随时间积累。在本文中，我们比较这两种情况，并表明积累数据可以防止模型崩溃。我们首先研究一个分析可追踪的设置，其中一系列线性模型适合于之前模型的预测。以前的工作表明，如果数据被替换，测试误差随着模型拟合迭代次数的增加呈线性增长；我们通过证明，如果数据积累，测试误差具有独立于迭代次数的有限上界来扩展这个结果。接下来，我们通过在文本语料库上预训练语言模型序列来实验性地测试积累数据是否同样可以防止模型崩溃。我们证实，替换数据确实会导致模型崩溃，然后证明积累数据可以防止模型崩溃；这些结果适用于各种模型大小、架构和超参数。我们进一步展示，在真实数据上，类似的结果也适用于其他深度生成模型：用于分子生成的扩散模型和用于图像生成的变分自编码器。我们的工作提供了一致的理论和实证证据，证明了数据积累可以缓解模型崩溃。

614

ML

AI

NLP

PDF

解读

Badllama 3: removing safety finetuning from Llama 3 in minutes

2024年07月01日

我们展示了当攻击者可以获得模型权重时，广泛使用的LLM安全微调很容易被破坏。我们评估了三种最先进的微调方法——QLoRA、ReFT和Ortho，并展示了算法进步如何使得在FLOPs和优化能力减少的情况下，仍能够保持不变的越狱性能。我们在单个GPU上仅用一分钟就可以剥离Llama 3 8B的安全微调，而对于Llama 3 70B则只需要30分钟，并概述了进一步降低这一时间的方法。

328

ML

AI

NLP

PDF

解读

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

Mingyang Zhang ,

2024年07月23日

Retrieval Augmented Generation（RAG）是大型语言模型（LLMs）高效处理过长语境的强大工具。然而，最近的LLMs（如Gemini-1.5和GPT-4）展现了直接理解长语境的异常能力。我们进行了全面比较RAG和长语境（LC）LLMs，旨在利用两者的优势。我们使用三个最新的LLMs在各种公共数据集上对RAG和LC进行基准测试。结果表明，当资源充足时，LC在平均性能方面始终优于RAG。然而，RAG的成本显著较低，仍然是一个独特的优势。基于这一观察，我们提出了Self-Route，这是一种简单而有效的方法，可以根据模型自我反思将查询路由到RAG或LC。Self-Route显著降低了计算成本，同时保持了与LC相当的性能。我们的发现为使用RAG和LC的LLMs的长语境应用提供了指导。

239

NLP

AI

ML

PDF

解读

Masked Attention is All You Need for Graphs

David Buterez ,

Jon Paul Janet ,

2024年02月16日

图神经网络（GNNs）和消息传递算法的变体是学习图形的主要手段，这主要是由于它们的灵活性、速度和令人满意的性能。然而，设计强大且通用的GNNs需要大量的研究工作，并且通常依赖于手工制作的、精心选择的消息传递运算符。出于这个原因，我们提出了一种非常简单的替代方法来学习图形，它完全依赖于注意力。图形被表示为节点或边集，并通过掩蔽注意力权重矩阵来强制它们的连通性，有效地为每个图形创建自定义注意力模式。尽管它很简单，但是掩蔽注意力图（MAG）在长距离任务上具有最先进的性能，并且在超过55个节点和图级任务上优于强大的消息传递基线和更复杂的基于注意力的方法。我们还展示了与GNNs相比具有显着更好的迁移学习能力，时间和内存缩放相当或更好。MAG在节点或边的数量上具有次线性的内存缩放，使得可以在密集图上进行学习，并为这种方法未来的发展提供了保障。

220

ML

AI

PDF

解读

KAN or MLP: A Fairer Comparison

2024年07月23日

本文并未介绍一种新的方法，而是在包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示在内的多个任务中，提供了更公平和全面的KAN和MLP模型的比较。具体而言，我们控制参数数量和FLOPs来比较KAN和MLP的性能。我们的主要观察是，除了符号公式表示任务外，MLP通常优于KAN。我们还对KAN进行了消融研究，并发现其在符号公式表示方面的优势主要来自其B样条激活函数。当B样条应用于MLP时，在符号公式表示方面的性能显著提高，超过或与KAN相匹配。然而，在MLP已经优于KAN的其他任务中，B样条并没有显著提高MLP的性能。此外，我们发现，在标准的类增量连续学习设置中，KAN的遗忘问题比MLP更严重，这与KAN论文中的发现不同。我们希望这些结果为未来KAN和其他MLP替代方案的研究提供启示。项目链接：https://github.com/yu-rp/KANbeFair

183

ML

AI

PDF

解读

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

2024年07月24日

人物图像动画涉及从角色照片生成视频，允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果，但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外，这些方法优先考虑2D人体动作，忽略了视频中摄像机动作的重要性，导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱，我们提出了HumanVid，这是第一个专为人类图像动画量身定制的大规模高质量数据集，结合了精心制作的真实世界和合成数据。对于真实世界的数据，我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略，我们确保包含高质量的视频，结果是收集了20K个人类中心视频，分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据，我们收集了2,300个版权免费的3D头像资产，以增强现有可用的3D资产。值得注意的是，我们引入了基于规则的摄像机轨迹生成方法，使合成管道能够融合多样化和精确的摄像机运动注释，这在真实世界数据中很少见。为了验证HumanVid的有效性，我们建立了一个名为CamAnimate的基准模型，即可控制摄像机的人类动画，考虑了人类和摄像机运动作为条件。通过广泛的实验，我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能，创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。

168

CV

AI

ML

PDF

解读

Discrete Flow Matching

2024年07月22日

尽管流匹配和扩散模型已成为生成连续变量（如图像和视频）的强大生成范式，但它们在生成高维离散数据（如语言）方面的应用仍然有限。在本文中，我们提出了离散流匹配（Discrete Flow Matching），这是一种专门设计用于生成离散数据的新型离散流范式。离散流匹配提供了几个关键贡献：（i）它可以使用在源分布和目标分布之间插值的一般概率路径族；（ii）它允许使用学习后验概率（如概率去噪器（$x$-prediction）和噪声预测（$\epsilon$-prediction））的通用公式从这些概率路径中进行采样；（iii）实际上，专注于使用不同调度程序定义的特定概率路径，相比以前的离散扩散和流模型，可以显着提高生成的困惑度；（iv）通过将离散流匹配模型扩展到17亿个参数，我们在HumanEval上达到了6.7% Pass@1和13.4% Pass@10，在1-shot MBPP编码基准测试上达到了6.7% Pass@1和20.6% Pass@10。我们的方法能够以非自回归的方式生成高质量的离散数据，显著缩小了自回归模型和离散流模型之间的差距。

166

ML

AI

PDF

解读

Disentangling Representations in RNNs through Multi-task Learning

Pantelis Vafidis ,

Aman Bhargava ,

2024年07月15日

摘要中提到，抽象或分离表示是一种有前途的数学框架，可在生物和人工系统中实现高效和有效的泛化。本文研究了多任务分类中的抽象表示，其中包括噪声证据流 - 这是一个经典的决策神经科学范式。当任务数量超过状态空间的维数时，我们推导出理论界限，保证任何最优多任务分类器的潜在状态中出现分离表示的出现。我们在实验中证实，经过多任务分类训练的循环神经网络（RNN）学习了抽象表示，以连续的吸引子的形式呈现，导致零样本的分布外（OOD）泛化。我们展示了抽象RNN表示在各种决策边界几何和需要分类置信度估计的任务中的灵活性。我们的框架提出了一种形成认知地图的通用原则，以组织知识，实现生物和人工系统的灵活泛化，并与人类和动物在决策和空间推理任务中发现的表示密切相关。

149

ML

AI

q-bio.NC

PDF

解读

SimPO: Simple Preference Optimization with a Reference-Free Reward

2024年05月23日

本文提出了一种更简单但更有效的优化算法SimPO，它是一种广泛使用的离线偏好优化算法DPO的改进。SimPO的有效性归功于其关键设计：使用序列的平均对数概率作为隐式奖励。这种奖励公式更符合模型生成，消除了参考模型的需求，使其更加计算和内存高效。此外，我们在Bradley-Terry目标函数中引入了目标奖励边界，以鼓励获胜和失败响应之间的更大边界，进一步提高了算法的性能。我们在包括AlpacaEval 2、MT-Bench和Arena-Hard等广泛的指令跟随基准测试中比较了SimPO和DPO及其最新变体。结果表明，SimPO在不显著增加响应长度的情况下，始终显著优于现有方法。具体而言，在AlpacaEval 2上，SimPO比DPO高出6.4分，在Arena-Hard上高出7.5分。我们基于Llama3-8B-Instruct构建的最佳模型在AlpacaEval 2上获得了惊人的44.7长度控制胜率，在排行榜上超过了Claude 3 Opus，在Arena-Hard上获得了33.8胜率，成为最强的8B开源模型。

112

NLP

ML

PDF

解读