- 简介推理是指设计和执行复杂的、以目标为导向的行为序列的过程,这在人工智能领域仍然是一个关键性的挑战。当前的大语言模型(LLMs)主要采用“思维链”(Chain-of-Thought, CoT)技术,但这种方法在任务分解上存在脆弱性、需要大量的训练数据,并且响应延迟较高。受人类大脑中分层且多时间尺度处理机制的启发,我们提出了一种新的循环架构——分层推理模型(Hierarchical Reasoning Model, HRM),该模型在实现显著计算深度的同时,保持了训练的稳定性与高效性。 HRM 通过两个相互依赖的循环模块,在一次前向传播过程中即可完成顺序推理任务,而无需对中间过程进行显式的监督。其中一个高层模块负责缓慢而抽象的规划,另一个低层模块则处理快速而具体的计算。HRM 在仅使用 1000 个训练样本的情况下,凭借仅仅 2700 万参数就在复杂推理任务中实现了卓越的性能表现。该模型无需预训练或 CoT 数据,却能在诸如复杂数独谜题和大型迷宫最优路径寻找等高难度任务上接近完美地完成任务。 此外,在衡量通用人工智能能力的关键基准——抽象与推理语料库(Abstraction and Reasoning Corpus, ARC)上,HRM 的表现优于许多规模更大、上下文窗口更长的模型。这些结果突显了 HRM 在通向通用计算和通用推理系统道路上所具备的重大变革潜力。
- 图表
- 解决问题论文试图解决当前大型语言模型(LLMs)在复杂目标导向任务推理中的局限性,包括脆弱的任务分解能力、大量的数据需求以及高延迟。该问题具有重要现实意义,因为高效、稳定的深度推理架构对于通用人工智能的发展至关重要。
- 关键思路受人类大脑分层与多时间尺度处理机制的启发,论文提出了一种新的循环神经网络架构——分层推理模型(HRM)。该模型通过两个相互依赖的循环模块实现推理任务:高层模块负责缓慢的抽象规划,低层模块执行快速的具体计算。这一方法无需预训练或显式监督中间过程,在单次前向传递中完成任务,并显著减少参数量和训练数据需求。
- 其它亮点1. 仅使用2700万参数和1000个训练样本即可在复杂任务如数独和迷宫路径寻找中达到接近完美表现 2. 无需链式思维(CoT)或预训练,展现出极高的训练效率和稳定性 3. 在需要抽象推理能力的ARC基准上超越更大模型和更长上下文窗口的LLMs 4. 实验设计强调模型泛化能力和小样本学习潜力 5. 未来研究方向可能包括扩展HRM到多模态任务、探索其在实际应用场景的表现
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Language Models Are Few-Shot Learners 3. Neural Turing Machines 4. Differentiable Neural Computers 5. Meta-Learning with Latent Embedding Optimization 6. Transformer-XL and Extended Sequence Modeling for Long-Term Dependencies 7. Efficient Training of Very Deep Neural Networks Without Skip Connections or Batch Normalization
沙发等你来抢
去评论
评论
沙发等你来抢