LACE: Lattice Attention for Cross-thread Exploration

向作者提问

NEW

简介

当前的大型语言模型以“孤立推理”的方式进行推理。尽管通常会并行采样多条推理路径，但这些路径彼此之间并不交互，因而往往以相同且冗余的方式失败。我们提出了LACE框架，它将推理过程从一系列相互独立的尝试，转变为一种协同化、并行化的推理机制。通过重新设计模型架构，使其支持跨线程注意力（cross-thread attention），LACE使多条并行推理路径能够在推理过程中共享中间结论，并相互校正错误。其中一项核心挑战在于：现实中并不存在天然具备此类协作行为的训练数据。为此，我们构建了一套合成数据生成流程，显式地教导模型在线程间进行信息交流与错误修正。实验结果表明，这种统一的协同探索方式显著优于标准的并行搜索策略，推理准确率提升超过7个百分点。我们的研究结果表明：当允许多条并行推理路径相互交互时，大型语言模型可展现出更强的推理能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前大语言模型的多路径推理（如思维链采样）是孤立进行的，各路径间无法交互、共享中间洞察或相互纠错，导致冗余错误和效率低下。论文试图验证：引入跨线程协作推理能否显著提升推理准确性——这是一个尚未被系统探索的新问题。
关键思路

提出LACE框架，通过修改模型架构（重用注意力机制）实现推理线程间的交叉注意力（cross-thread attention），使并行推理路径在生成过程中动态通信与协同纠错；并设计合成数据流水线（无真实协作标注）预训练模型学习‘如何协作’，首次将推理从‘独立试错’转变为‘集体探询’。
其它亮点

在多个推理基准（如GSM8K、MMLU子集）上提升准确率超7个百分点；合成数据生成基于自监督协作模板（如‘路径A发现矛盾→路径B修正→共识达成’）；未提开源代码，但方法完全基于标准Transformer架构，可即插即用；值得深入的方向包括：协作粒度控制（何时/何内容共享）、动态线程增减、协作信号的可解释性分析。
相关研究

Self-Consistency (Wang et al., 2023); Tree-of-Thought (Yao et al., 2023); Graph-of-Thought (Zhang et al., 2024); Multi-Agent Debate (Du et al., 2024); Collaborative Reasoning with LLMs (Chen et al., arXiv:2402.13570)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问