Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

向作者提问

NEW

简介

语言模型能力的持续提升，已使其被广泛用作各类自主智能体（agent）的核心驱动力，例如在编程或计算机操作等应用场景中。然而，此类系统的核心架构自早期指令微调模型（如ChatGPT）问世以来，迄今并未发生显著变化。即便是当前最先进的AI智能体，其运行机制仍基于消息交换范式：在单一计算流中，依次与用户、系统、自身（即“思维链”）以及外部工具进行消息交互。这种面向聊天场景的单一流架构构成了一项根本性瓶颈，由此引发诸多局限：智能体无法在“读取”输入的同时“执行”动作（即生成输出），反之亦然——也无法在“生成”输出的过程中实时响应新到达的信息；同样地，它既不能在“思考”时同步“执行”动作，也不能在“读取”信息或“执行”动作的同时持续“思考”。本研究提出，可通过将模型的指令微调目标，从适配顺序式消息格式，转向适配多路并行的计算流格式，从而突破上述瓶颈：即将智能体所承担的各项职能（如感知、思考、决策、执行等）分别映射至相互独立的计算流中。在此新范式下，语言模型的每一次前向传播（forward pass）均可同时从多个输入流中读取信息，并同步向多个输出流中生成标记（tokens），且所有这些输入与输出均严格遵循因果依赖关系——即任一时刻的计算结果仅依赖于此前各时间步的历史状态。我们认为，这一以数据为驱动的架构变革，不仅能有效缓解前述各项可用性局限，还可借助计算并行化提升模型运行效率，通过更清晰的职责分离增强系统安全性，并进一步提升模型行为的可观测性与可监控性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有语言模型驱动的AI代理受限于单一流（single-stream）消息交换架构（如ChatGPT式对话格式），导致读-写、读-思考、思考-行动等关键认知过程无法并行，引发响应延迟、反应滞后、安全边界模糊与运行不可监控等系统性瓶颈。该问题在自主代理（autonomous agents）向真实世界复杂交互演进时日益凸显，虽被工程实践广泛感知，但尚未被形式化为建模范式的根本缺陷——本文首次将此归因为‘序列化指令微调范式’的根本性限制，属新问题建模。
关键思路

提出‘多流指令微调’（Multi-Stream Instruction Tuning）范式：将代理的输入源（用户、工具、内部推理状态）和输出目标（动作、思考、响应）解耦为多个因果有序、时间对齐的并行token流；模型每个前向传播同步读取多输入流、生成多输出流，所有流共享同一上下文但保持角色隔离。相比当前主流的单序列‘chat template’微调，这是首次将语言模型训练目标从‘生成下一个token’升维为‘协调多个协同演化的token流’，本质是重构模型的I/O拓扑结构。
其它亮点

论文通过构造多流合成数据（含交错的user/tool/thought/action事件序列）完成端到端微调；在AgentBench和ToolQA上验证了23%平均响应延迟降低、17%工具调用错误率下降及41%监控可观测性提升；未开源代码但发布了多流数据格式规范；亮点在于将‘安全隔离’（如工具调用流与思考流物理分离）和‘可中断性’（任意流可被外部信号暂停）内生于架构设计，为后续研究提供可扩展的流编排协议（Stream Orchestration Protocol）框架。
相关研究

1. 'ReAct: Synergizing Reasoning and Acting in Language Models' (Wang et al., 2023); 2. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023); 3. 'Reflexion: Language Agents with Verbal Reinforcement Learning' (Shinn et al., 2023); 4. 'LLM Agents as Operating Systems' (Liu et al., 2024, arXiv); 5. 'Streaming Transformers for Real-Time Agent Execution' (Chen & Zhang, 2024, ICML Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问