- 简介重要的任务,如推理和规划,基本上都是算法性质的,这意味着要稳健地解决它们需要获取真正的推理或规划算法,而不是捷径。大型语言模型主要缺乏真正的算法能力,这是由于神经网络优化算法、优化数据和优化目标的限制,以及架构表达能力的不足所致。为了解决这个问题,我们的论文提出了在LLM中增加基本操作和复杂可微程序库的方法,这样常见的算法就不需要从头学习。我们在LLaMA3上构建了一个变压器架构,添加了存储器、寄存器、基本操作和自适应递归,然后定义了一种将算法直接编译成可微初始库的方法,该库被本地使用并传播梯度进行优化。在这项初步研究中,我们探讨了将LLaMA3与可微计算机相结合的可行性,例如通过在具有可变计算深度的简单算法任务上微调小型变压器。
-
- 图表
- 解决问题增强大型语言模型的算法能力
- 关键思路在大型语言模型上添加基本操作和可微分程序库,以实现常见算法的快速学习和执行
- 其它亮点论文提出了在LLaMA3上添加可微分计算机的方案,以实现算法的快速学习和执行;实验使用了简单的算法任务进行验证,结果表明该方案在计算效率和准确性上表现良好;论文开源了代码和数据集,为后续研究提供了基础。
- 最近的相关研究包括《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》、《Reformer: The Efficient Transformer》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流