
传统人工智能(Traditional Artificial Intelligence, AI)通常在非协作(non-collaborative)环境中执行任务,其中单个 AI 根据用户定义的输入做出决策。现代 AI 越来越多地部署在协作(collaborative)环境中,AI 智能体(agents)与人类共同在多轮交互中朝着共同目标努力。这种协作 AI 范式不仅旨在构建旨在匹配甚至超越人类水平能力的系统;相反,它旨在赋能单方面无法实现的创造力和智能。
本论文研究以下问题:我们如何构建能够有效与人类用户协作的强大智能体?与非协作智能体相比,协作 AI 智能体需要主动行为来理解用户意图、推理用户查询和歧义,并提供帮助用户实现目标的协助。我们分析了协作环境中智能体的常见失效模式,将其与社会科学对人类协作的研究联系起来,更重要的是,确定了解决协作任务所需的行為水平和能力。
在建立这些基础之上,我们近期的研究提出了一种统一框架,将非协作式 AI 转化为协作式智能体。我们提出了一种多轮感知目标,该目标在多轮协作中优先考虑长期结果,而非单轮任务完成。我们证明,使用该目标训练的协作式智能体在各种基准测试中显著优于非协作式训练的智能体。更重要的是,人类用户在与协作式智能体合作时,报告了更高效、更投入和更具创造性的交互体验。
本论文进一步研究了如何构建更强大、更智能的协作式智能体,超越多轮感知(multiturn-aware)目标带来的行为改变。我们发现智能体在学习经验方面常常遇到困难。一个执行过多个任务的智能体可能仍然无法解决一个类似的任务,并且会犯同样的错误。为了解决这些局限性,我们开创了一个研究方向,使智能体系统能够从过去的失败中学习,并适应更困难的任务。关键在于智能体系统进行对比推理,识别出合作效果良好与不佳的会话之间的差距,从而能够识别并有效解决当前的限制。我们还发现了扩展智能体系统的优势,并开发了一个优化框架,使各个智能体与共同目标保持一致。这些工作共同增强了多轮次合作,提升了系统在与人协作方面的能力。
最后,我们总结了协作 AI 中的开放性问题,并倡导使协作智能体更加普及,这些智能体不仅受人类管理,而且能够与人类共同创造更多价值。

类型:2026年博士论文
学校:Stanford University(美国斯坦福大学)
下载链接:
https://t.zsxq.com/Co4iB
请索引第127篇博士论文
![]() | ![]() |
什么是智能体?为什么需要智能体?
智能体的概念早在现代大型人工智能模型出现之前就已存在。传统上,智能体是一种轻量级的计算机程序,它在特定环境中代表用户执行操作。它通常被设计用于自动化执行定义明确的任务(例如,下棋、筛选和发送电子邮件,或在特定约束条件下安排会议),或在有限的领域内进行简单的对话(例如,预订聊天机器人)。这些智能体大多是程序化的:目标明确指定,行为通过规则或流程进行设计,并且可以使用特定于任务的指标来评估其成功与否。
在现代语境中,agent的含义已经扩展,因为agent运行的环境已经发生了变化。现在,许多部署发生在web、工作场所软件或个人设备等设置中,其中信息分布在许多来源中,重要的约束可能只有在几个交互步骤之后才会出现。这些设置也是可操作的:除了生成文本之外,代理可能还需要查找信息、运行代码、调用外部服务或更新文档。
基础模型通过提供自然语言接口以及跨多轮对话使用长语境的能力,实现了这种转变。因此,现代智能代理更应被视为能够主动做出决策的系统,它们能够解读未完全明确的目标、跟踪不断变化的背景,并利用外部工具和 API [41, 124, 139, 145, 150, 191]。这些智能代理在推理 [9, 173, 190, 191]、规划 [48, 64, 213] 方面表现出非凡的能力,并能够与环境进行交互 [41, 93, 105, 177],以执行复杂的任务,如多步骤问题解决和信息检索 [148, 189, 219]。因此,核心挑战从执行固定计划转变为与用户一起决定下一步做什么以及如何随着任务的展开进行调整。
为什么需要协作型智能体?
这种更广义的智能体视角催生了以语言为主要界面、智能体随时间推移执行多个步骤的应用,例如能够生成具体输出(如行程安排或购物清单)的规划助手。然而,当我们与大型语言模型等强大的智能体进行协作时,我们注意到模型能力与有效协作之间存在着反复出现且令人惊讶的差距。这些模型在处理复杂的技术问题时可能表现得非常出色,但在基本的人类交互方面却可能失败。
凯西·牛顿举了一个广为人知的例子,他描述了使用智能体系统订购杂货的尝试。用户在Instacart上请求帮助购买杂货,并期望系统会询问一些基本问题,例如住址、偏好的商店以及想要购买的商品。然而,系统却立即打开Instacart,开始在错误城市的商店搜索牛奶。这种错误令人震惊,因为它并非知识不足,而是沟通和协调失败。即使底层模型功能强大,如果智能体不询问澄清问题、过早猜测用户偏好或无法可靠地跟踪上下文,也会让人感到沮丧。

以下是一些多轮交互中协作失败的典型案例。左图[4]:一个食谱请求展示了一些不必要的假设:智能体在没有询问用户饮食偏好的情况下就推荐了鸡肉,迫使用户自行更正(例如,用户是素食主义者),从而浪费了时间。右图[182]:一个健康咨询展示了一些通用答案:智能体列出了一些宽泛的原因,而没有首先了解解决具体问题所需的关键背景信息。
这并非一个无关紧要的可用性问题。糟糕的协作会影响性能、安全性和效率。即使在风险较低的任务中,未经核实的假设也会拖慢进度并浪费用户时间。在医疗保健、法律或金融等高风险领域,类似的失误可能更加严重,并导致误导性的结果。图 1.1 展示了两种故障模式。在食谱请求中,智能体做出了不必要的假设,建议使用鸡肉,迫使用户通过说明自己的素食偏好来纠正错误。在健康问题中,智能体返回了一个通用列表,而不是询问回答所需的关键细节。在这两种情况下,用户都浪费了大量时间来纠正误解和重申限制条件。
这种差距持续存在的原因之一是,许多评估都侧重于简化的场景,例如只有一轮提示且指令清晰完整的场景。而真实的交互则截然不同。用户通常从模糊的请求开始,在看到选项后完善偏好,并在后期才引入关键的限制条件。因此,成功很少是单一响应的结果。它取决于智能体在一段时间内的交互效果,例如如何澄清意图、跟踪不断变化的情境,以及如何根据任务的进展调整自身行为。
因此,协作需要的能力远不止正确性,还包括理解意图的沟通、选择下一步行动的协调,以及对偏好和不断变化的目标的适应。此外,如果人类和人工智能系统要共同解决有意义的问题,智能体不能仅仅被动地响应请求。它们还必须帮助用户探索各种选择、降低决策风险并激发创造力。
同时,与真正的合作者不同,智能体可能无法从更多经验中显著提升自身能力。当人类反复协作完成类似任务时,他们会自然而然地从过去的错误中吸取教训,改进策略,并成为更高效的合作伙伴。一位经验丰富的合作者,即使之前误解了航班搜索请求,也能在未来的互动中识别出类似的模式,并相应地调整方法。这种随着经验的积累而不断改进的能力,正是高效协作的标志。

智能体无法从重复交互中吸取经验教训。与人类协作者随着经验的积累而提升专业技能不同,智能体在类似任务中常常重复犯同样的错误。例如,在航班预订场景[101]中,尽管之前已经进行过纠正,智能体仍然会将单程航班请求错误地解读为往返航班搜索,这表明它系统性地无法从过去的错误中学习并相应地调整自身行为。
然而,智能体往往无法展现这种适应性行为。以帮助用户预订航班为例,智能体必须解读用户的出行偏好,区分单程和往返行程,并搜索合适的预订平台。图 1.2 展示了在多项部署研究中均出现的模式 [101]:即使在处理过类似的请求之后,智能体仍然会重复同样的错误。这种失败并非源于任务的复杂性或自身能力的不足。智能体拥有足够的知识来区分航班类型,并且能够访问正确的预订工具。相反,失败的原因在于智能体无法从过去的交互中学习,也无法识别自身错误中反复出现的模式。

COLLABLLM框架:给定一个上下文(1),该模型生成一个响应(2)以最大化长期协作收益,称为多轮感知奖励(MR)。在训练过程中,MR通过(3)协作仿真进行估计,该仿真对与模拟用户的对话进行前向采样。最后,(4)使用MR进行强化微调。
经验与改进之间的这种差距,对协作型智能体而言是一个根本性的限制。用户期望随着时间的推移,与智能体的协作能够带来更流畅的互动、更少的澄清和更好的结果。当智能体无法满足这一期望时,协作就会变得令人沮丧且效率低下。此外,在复杂领域,这种限制的影响会更加严重。在诸如产品搜索或生物医学问答等检索密集型任务中,用户会逐步添加约束条件,并且可能参考过去的搜索记录,如果智能体无法从交互历史中学习,就无法识别哪些策略在类似情况下成功或失败。
问题的根源在于当前智能体处理信息的方式。它们擅长在单次交互中进行推理,但缺乏识别多次交互中系统性模式、识别过往策略失效以及根据经验积累调整策略的方法。智能体可以访问原始文本形式的对话历史记录,但它们难以从中提取更高层次的经验教训:哪些假设导致了错误,哪些澄清问题最有价值,以及哪些推理模式始终能带来更好的结果。
要克服这一局限性,就需要赋予智能体对比推理能力:通过比较成功和失败的交互,识别出它们方法上的关键差异,并认识到当前策略中存在的系统性缺陷。挑战并非仅仅在于赋予智能体更多内存或更长的上下文窗口。相反,智能体必须学会跳出固有思维,分析多个任务中的模式。
然而,即便拥有从经验中学习的机制,智能体仍然面临着另一个根本性的挑战:复杂的协作任务可能超出单个智能体可靠处理的能力。现实世界的协作通常涉及信息分散在各种异构来源、约束条件不断累积以及多种推理方式必须同时协调的任务。单个智能体尝试完成此类任务时,可能并非因为缺乏知识或协作技能而感到困难,而是因为其所需的智力要求超出了任何单个决策者有效处理的能力范围。
事实上,这种关于个体局限性的观察与社会科学中一个研究颇深的现象密切相关。个体决策者面临着认知限制,这限制了他们处理信息和评估备选方案的能力,赫伯特·西蒙将这种模式称为有限理性[151]。数十年的研究表明,群体可以超越这些限制:多元化的团队表现优于由高能力个体组成的同质群体[58],群体通常比专家做出更明智的判断[155],并且群体展现出一种可衡量的集体智慧,这种智慧比任何单个成员的能力都能更好地预测绩效[176]。这种集体能力的产生源于以下几个方面:管理活动之间依赖关系的协调机制[108];成员专业化并追踪谁掌握哪些知识的交互记忆系统[172];以及推理在人员和工具之间传播的分布式认知[66]。
这些发现为构建多智能体人工智能系统提供了原则性基础:不仅要分配任务,还要分配从经验中学习和处理复杂性所需的认知功能。不同的智能体可以扮演互补的角色,以克服各自的局限性。例如,一个智能体可以尝试执行任务,而另一个智能体则分析失败的原因;一个智能体可以专注于广泛搜索,而另一个智能体则验证约束条件。这种认知分工既解决了上述学习问题,也解决了复杂性问题。
构建此类系统带来了新的挑战。智能体不仅需要与用户协调以理解其意图,还需要彼此协调以分享经验、统一经验教训并避免目标冲突。随着系统规模的扩大,智能体数量的增加,确保单个组件的局部改进能够转化为整体性能的提升变得越来越困难。
鉴于上述局限性,本论文探讨了协作的三个维度:智能体如何通过经验学习与人类进行有效互动;智能体如何随着经验的积累而不断改进;以及多个智能体如何相互协调,以大规模地服务于人类目标。

来自 COLLABLLM 和非协作式 LLM 微调的真实案例。(a) 非协作式 LLM 微调依赖于对即时响应的单轮奖励,这种机制表现出被动的行为,仅仅响应用户的请求,导致用户感到沮丧,流程效率低下,结果也不尽如人意。(b) COLLABLLM 融合了来自协作模拟的多轮感知奖励机制,从而能够制定前瞻性策略。这使得对话更加高效、互动性更强,能够预测未来的需求,及时提出澄清,并提供富有洞察力的建议。

BigCodeBench-Chat 案例研究。非协作式 LLM 假定用户需求,却添加了不必要的步骤,例如标点符号和停用词移除。相比之下,协作式 LLM 明确了分词器偏好、错误处理和软件包安装,从而提供了一个能够精准契合用户意图的解决方案。

STARK 通过对半结构化知识库 (SKB) 的检索进行基准测试,来评估智能体的用户中心推理能力。由于用户自然会针对融合了文本描述和结构化关系的异构知识提出查询,因此该基准测试旨在评估智能体是否能够准确理解这些整体用户需求并检索到正确答案。它包含模拟真实交互的合成查询和人工生成的查询,其中节点实体作为真实答案。

半结构化知识库的演示,其中每个知识库都以复杂的方式结合了文本信息和关系信息,使得检索任务具有挑战性。

用于生成半结构化检索数据集的构建流程。

AVATAR概述。AVATAR是一个多智能体系统,由一个执行器智能体(Actor)和一个比较器智能体(Comparator)组成。(a) 在优化阶段,执行器智能体利用提供的工具生成动作来回答用户查询。然后,比较器智能体对比执行器表现良好(正面)和表现不佳(负面)的查询,通过对比推理自动生成整体指令,从而教会执行器更有效的策略来分解复杂请求并协调工具的使用(参见4.4节)。(b) 在部署阶段,经过优化的指令的执行器智能体可以有效地回答新的用户查询。

AVATAR 将查询分解为多个可解释的约束,通过灵活的匹配实现策略性工具的使用,并将结果与从优化阶段学习到的参数进行综合,从而成功回答用户的查询。

OPTIMAS概述。对于多智能体或复合人工智能系统,由于其多个组件之间存在异构配置(例如,提示、参数),OPTIMAS会在系统演化过程中维护全局一致的局部奖励函数(LRF)。每个LRF负责监督一个组件,并将更高的局部奖励分配给系统性能(即全局奖励)更高的输出。OPTIMAS迭代地调整LRF,并优化每个组件,以最大化其局部奖励,从而实现有效的系统优化。

OPTIMAS 优化迭代。在每次迭代中,OPTIMAS 首先收集一小批偏好数据,然后调整组件 Ck 的局部奖励函数 rk,使其与全局任务指标保持一致。这种一致性有助于确保优化组件以最大化其局部奖励也能提高全局奖励。







内容中包含的图片若涉及版权问题,请及时与我们联系删除




评论
沙发等你来抢