- 简介语言模型能力的持续提升,已使其被广泛用作各类自主智能体(agent)的核心驱动力,例如在编程或计算机操作等应用场景中。然而,此类系统的核心架构自早期指令微调模型(如ChatGPT)问世以来,迄今并未发生显著变化。即便是当前最先进的AI智能体,其运行机制仍基于消息交换范式:在单一计算流中,依次与用户、系统、自身(即“思维链”)以及外部工具进行消息交互。这种面向聊天场景的单一流架构构成了一项根本性瓶颈,由此引发诸多局限:智能体无法在“读取”输入的同时“执行”动作(即生成输出),反之亦然——也无法在“生成”输出的过程中实时响应新到达的信息;同样地,它既不能在“思考”时同步“执行”动作,也不能在“读取”信息或“执行”动作的同时持续“思考”。 本研究提出,可通过将模型的指令微调目标,从适配顺序式消息格式,转向适配多路并行的计算流格式,从而突破上述瓶颈:即将智能体所承担的各项职能(如感知、思考、决策、执行等)分别映射至相互独立的计算流中。在此新范式下,语言模型的每一次前向传播(forward pass)均可同时从多个输入流中读取信息,并同步向多个输出流中生成标记(tokens),且所有这些输入与输出均严格遵循因果依赖关系——即任一时刻的计算结果仅依赖于此前各时间步的历史状态。我们认为,这一以数据为驱动的架构变革,不仅能有效缓解前述各项可用性局限,还可借助计算并行化提升模型运行效率,通过更清晰的职责分离增强系统安全性,并进一步提升模型行为的可观测性与可监控性。
-
- 图表
- 解决问题现有语言模型驱动的AI代理受限于单一流(single-stream)消息交换架构(如ChatGPT式对话格式),导致读-写、读-思考、思考-行动等关键认知过程无法并行,引发响应延迟、反应滞后、安全边界模糊与运行不可监控等系统性瓶颈。该问题在自主代理(autonomous agents)向真实世界复杂交互演进时日益凸显,虽被工程实践广泛感知,但尚未被形式化为建模范式的根本缺陷——本文首次将此归因为‘序列化指令微调范式’的根本性限制,属新问题建模。
- 关键思路提出‘多流指令微调’(Multi-Stream Instruction Tuning)范式:将代理的输入源(用户、工具、内部推理状态)和输出目标(动作、思考、响应)解耦为多个因果有序、时间对齐的并行token流;模型每个前向传播同步读取多输入流、生成多输出流,所有流共享同一上下文但保持角色隔离。相比当前主流的单序列‘chat template’微调,这是首次将语言模型训练目标从‘生成下一个token’升维为‘协调多个协同演化的token流’,本质是重构模型的I/O拓扑结构。
- 其它亮点论文通过构造多流合成数据(含交错的user/tool/thought/action事件序列)完成端到端微调;在AgentBench和ToolQA上验证了23%平均响应延迟降低、17%工具调用错误率下降及41%监控可观测性提升;未开源代码但发布了多流数据格式规范;亮点在于将‘安全隔离’(如工具调用流与思考流物理分离)和‘可中断性’(任意流可被外部信号暂停)内生于架构设计,为后续研究提供可扩展的流编排协议(Stream Orchestration Protocol)框架。
- 1. 'ReAct: Synergizing Reasoning and Acting in Language Models' (Wang et al., 2023); 2. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023); 3. 'Reflexion: Language Agents with Verbal Reinforcement Learning' (Shinn et al., 2023); 4. 'LLM Agents as Operating Systems' (Liu et al., 2024, arXiv); 5. 'Streaming Transformers for Real-Time Agent Execution' (Chen & Zhang, 2024, ICML Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流