Algorithmic Language Models with Neurally Compiled Libraries

简介

重要的任务，如推理和规划，基本上都是算法性质的，这意味着要稳健地解决它们需要获取真正的推理或规划算法，而不是捷径。大型语言模型主要缺乏真正的算法能力，这是由于神经网络优化算法、优化数据和优化目标的限制，以及架构表达能力的不足所致。为了解决这个问题，我们的论文提出了在LLM中增加基本操作和复杂可微程序库的方法，这样常见的算法就不需要从头学习。我们在LLaMA3上构建了一个变压器架构，添加了存储器、寄存器、基本操作和自适应递归，然后定义了一种将算法直接编译成可微初始库的方法，该库被本地使用并传播梯度进行优化。在这项初步研究中，我们探讨了将LLaMA3与可微计算机相结合的可行性，例如通过在具有可变计算深度的简单算法任务上微调小型变压器。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

增强大型语言模型的算法能力
关键思路

在大型语言模型上添加基本操作和可微分程序库，以实现常见算法的快速学习和执行
其它亮点

论文提出了在LLaMA3上添加可微分计算机的方案，以实现算法的快速学习和执行；实验使用了简单的算法任务进行验证，结果表明该方案在计算效率和准确性上表现良好；论文开源了代码和数据集，为后续研究提供了基础。
相关研究

最近的相关研究包括《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》、《Reformer: The Efficient Transformer》等。

Algorithmic Language Models with Neurally Compiled Libraries

提问交流

提问交流