
鲁为民
上海殷泊信息科技有限公司(MoPaaS)和美国Actus人工智能实验室创始人兼首席执行官(CEO)。先后获得清华大学学士(自动控制)和加州理工学院(CalTech)博士学位(电子工程和数学)。曾在美国宇航局喷气推进实验室(NASA JPL)从事应用于火星探测系统的强化学习(控制与导航)研发,后进入IBM和硅谷初创公司从事大数据和强化学习应用等相关的技术研发和领导工作,目前的技术兴趣是深度学习基础和解释、强化学习、自动控制,智能体、大模型应用解决方案,大语言模型运营(LLMOps)以及人工智能应用工程和安全。曾参与中国信通院中国国家大模型工程标准的编撰,在IEEE Transactions等学术期刊和主要国际会议上发表学术论文50余篇,获多项美国和中国专利。2023年获“吴文俊人工智能科学技术奖”。
大模型时代的智能体:问题、挑战和机会
——访上海殷泊信息科技有限公司创始人鲁为民博士
记者:鲁博士,首先想请您谈谈什么是智能体。
鲁博士:谢谢你的采访。
智能体不是什么新概念。实际上,人类一直试图打造一种人工生命形式,一种可以自主完成预设目标的代理或个体,即智能体(Agents),以协助人类完成各种各样繁琐的任务。智能体(Intelligent Agents或Agents)是一个可以自主完成设定目标的代理。“智能体”体现“智能”和“行动”;它具备一些类似人的学习、推理、决策和行动能力。多年来,智能体作为人工智能一个活跃的应用领域吸引人们不断地研究探索。
早在公元前350年,亚里士多德(Aristotle)就强调思维过程(知识和意图)与行动之间的联系,即行动应该有一个理性和推理的基础。到了上世纪五十年代,在冯·诺依曼(von Neuman)的博弈论(Game Theory,1944)、维纳(Wiener)的控制论(Cybernetics或Control Theory,1948)、香农(Shannon)的信息论(Information Theory,1948)和图灵(Turing)的机器智能(Machine Intelligence,1950)等奠基性的工作基础上,在1956年的达特茅斯会议上正式创立人工智能(AI),并将其作为一个独立学科,而人工智能的定义集中在让机器(即智能体)执行通常需要人类智能的任务,具备学习推理和自我改进的能力,并强调行动(Action)在智能中的核心作用。人们越来越意识到人工智能和智能体概念是密不可分的。
大模型在人工智能领域的重大突破,特别是大模型可以通过语言和图像等来认知世界,也在推理、规划和决策任务上有惊艳的表现,更是让人们看到智能体新的发展机会;特别是像ChatGPT、GLM和LLaMA 3.x等这样基于Transformer架构的大型语言模型(LLMs)越来越呈现智能体的(Agentic)属性,使得LLMs提供了增强或改变智能体的各种能力的可能性。特别是最近涌现的DeepSeek R1、OpenAI o1/o3和Google Gemini-2等一批推理大模型,将大模型的推理能力又推上一个台阶。这些模型可以为新一代智能体装备拥有广泛行动能力的“大脑”,从推理、规划和决策到行动都展现出智能体前所未有的能力。而基于LLM的智能体的潜力让人感到兴奋。新一代的智能体已经开始广泛深刻地影响人们生活工作的方式,也将推动人类社会的变革。
记者:既然提到大模型,那大模型和智能体的关系究竟是什么?
鲁博士:大语言模型(LLMs,或简称大模型)从传统神经网络演变到Transformer架构,通过预测下一个词(NTP),在大量广泛数据集上训练,展现出出色的自然语言理解、处理和生成能力。大模型可以很容易地完成回答问题、写文章、生成创意内容、帮助编程等多种任务;也在很多推理、规划和决策任务上表现出色。特别是大模型在知识迁移到各种下游任务中,表现出了卓越的能力和多方面的优势。
大模型也呈现出一定的智能体特性和能力,这些能力和优势可以在多个方面提升智能体的能力,使其在交互性、灵活性和智能化水平上更接近人类。大模型在以下一些方面被认为具备相当强的能力:
(1)语言理解和生成:通过大规模语料训练,LLMs学习了广泛的事实性世界知识和领域知识,能够理解和生成高质量的自然语言,涵盖多种语言和复杂语义。使智能体能够流畅地与用户进行多轮对话,解释复杂概念或生成创意内容,提供通用知识问答和专业领域咨询。
(2)会话式AI:LLMs的上下文学习(In-Context Learning)开启会话式(Conversational)AI新模式,从而带动人机或机机交互方式和用户界面(UI)的创新。一方面这种模式提供更好的用户使用体验,另一方面也催生像检索增强生成(RAG)这样的技术,可以灵活地将用户特定数据、经验、文件和新知识通过外挂知识库集成到大模型应用中,利用LLMs的理解、推理和生成等通用能力,动态地注入检索的特定数据,来生成更准确和更相关的答案。
(3)通用性和适应性:LLMs可以处理多样化的任务,不必为每个任务专门设计模型,另外,LLMs的能力可以与视觉、音频等感知模块结合,实现多模态的信息处理。LLMs具有较强的通用性和泛化能力,可以跨任务实现其特征表达融合对齐,在不同的应用中表现惊人,并涌现新的能力,使智能体能够在不同场景(例如客服、教育、写作)中无缝切换任务。智能体还能根据图片和视频中提取关键信息并用于不同任务。此外,通过微调或迁移学习,语言模型可以快速适应新的任务或领域。使智能体能够动态更新知识并适应不断变化的用户需求。
(4)推理和规划:LLMs可以高效地对信息进行整合、分析并给出合理的推断。特别是最近OpenAI推出的o1/o3——经过强化学习训练的推理大模型,能够执行更加复杂的推理任务。LLMs有能力帮助智能体在多步任务中分析复杂信息,例如规划任务或总结用户提供的大量数据,使得LLMs不仅用于语言任务,还用于在交互式具身环境中做出可执行的目标驱动决策和行动计划。
(5)规模优势:LLMs具备规模优势,即模型性能随着数据集、模型和算力规模呈幂律增加。通过大规模数据集和超大算力来训练超大参数量的模型,大模型呈现强大的预测性能、理解能力和推理能力。此外,像OpenAI o1这样的大模型也展现测试时计算(Test-Time Compute)或推断时计算(Inference-Time Compute)的规模优势。
虽然大模型在这些方面从不同程度上呈现智能体的属性,但它们在大多数场景还不能直接作为智能体使用。这在很大程度上是因为LLMs本质上是无状态的,它们没有足够的记忆,不能系统地保留、更新和调用历史信息,不能有效地将文本与现实世界的实体和概念相关联,也没有系统可靠的推理、学习、规划和行动能力。LLMs在交互式环境中仍面临重大挑战,尤其是在需要多步推理的任务(如网页导航)时表现不足,原因在于累积错误和探索数据的不够。仅依赖静态语言数据集训练的模型,不足以使这些模型适应动态的现实世界交互以及处理复杂决策和自适应学习问题。
一个典型的智能体通过其记忆机制可以在内部存储和维护环境状态信息,通过感知、推理、规划和行动能力支持与外部世界的多步交互。这样的智能体,通过接入大模型作为其大脑来提升各种能力,形成的LLM增强智能体系统则有可能解决这些问题。这样的智能体系统具有主动性,特别是在与环境的交互、主动决策和执行各种任务方面。另外,智能体还可以通过挖掘LLMs的潜力进一步增强推理决策能力,特别是通过环境、人工或AI模型提供的反馈,使得智能体可以具备更加深思熟虑和自适应的问题解决能力,突破LLMs现有技术的局限。一方面,智能体可以真正释放LLMs潜能,它能为LLMs提供强大的感知、规划、决策和行动能力;而另一方面,LLMs能提供智能体所需要的强大引擎。可以说,LLMs和智能体可以相辅相成、相互成就。
记者:您上面详细讲了大模型和智能体的关系,让我们知道可以基于大模型来构建智能体,那么,基于大模型的智能体的架构有什么特点?怎样构建基于大模型的智能体?
鲁博士:智能体根据设定的目标,确定好需要履行的特定角色,自主观测感知环境,根据获得的环境状态信息,检索历史记忆以及相关知识,通过推理规划分解任务并确定行动策略,并反馈作用于环境,以达成目标。在这个过程中,智能体持续学习,像人类一样不断进化。智能体通过记忆模块实现了状态化,能够在多步任务中高效地存储和利用信息,使其更接近人类的认知能力。这种设计特别适用于需要复杂推理和持续上下文管理的场景,例如对话系统、机器人控制或学习环境中的智能体。基于LLM构建的智能体可以充分地利用LLMs的各种能力来驱动不同的组成单元。

图1 基于LLM的智能体应用整体结构
具体而言,基于LLM的智能体应用整体结构如图1所示,智能体本身包括观测感知、记忆检索、推理规划和行动执行等模块;一个或多个大模型可以提供不同模块所需要的理解、推理和生成等能力。智能体呈现强大能力的关键在于智能体系统形成反馈闭环,使得智能体可以持续地迭代学习,不断地获得新知识和能力。反馈除了来自环境外,还可以来自人类和AI模型。智能体不断积累必要的经验来增强改进自己,以显著提高智能体的规划能力并产生新的行动,这些行动作用于环境使其与环境越来越相互适应,完满地完成相关任务,从而符合设定的目标。
可以给出智能体的一个典型工作流程。(1)智能体确定任务和目标,这个可以通过用户指令给定;(2)智能体分析确定需要扮演的角色,同时对任务和目标进行初步分解;(3)智能体观测感知环境,获得当前环境状态信息(观测感知);(4)智能体根据需要从知识储备和历史记忆中检索相关信息(记忆检索);(5)通过推理对当前的动态环境形成信念认知,对任务目标和当前状态的关系进行分析,并据此规划未来的行动,确定执行策略(推理规划);(6)行动执行模块负责将智能体的决策转化为具体对环境的实施行动的输出,控制影响环境的未来状态,完成用户设置的目标(行动执行)。
在这个过程中的不同阶段,基于LLM的智能体通过提示等方式与LLMs交互获得必要的资源、能力和中间结果,在结果生成过程中对中间结果进行处理形成智能体所需要的答案。智能体利用LLMs并相互成就的主要模式是推断时计算。
记者:最近大模型在推理能力上有很大的突破,你能简单介绍下这是怎么做到的吗?这个对智能体的发展有什么影响?
鲁博士:大模型一直被认为有规模优势,而且大模型的发展到目前为止一直遵循伸缩律(Scaling Law)的节奏扩张,即预训练模型规模结合数据和算力的扩展会导致模型能力的增加。但最近这种模型预训练扩张趋势似乎有减缓的迹象。在刚过去的NeurIPS 2024大会上,这些年AI大潮的主要激发和推动者Ilya Sutskever向全世界宣告:预训练结束了!数据如同化石燃料般难以再生,接下来,AI的突破点,就在于智能体、合成数据和推断时计算。
确实,基于大模型的“智能体”、基于“合成数据(Synthetic Data)”的后训练(Post-Training)和“推断时计算”,三者是密切相关的。智能体的能力取决于大模型的推理能力,而大模型的推理能力只依赖大量公共数据的预训练(Pre-Training)是不够的;基于合成数据的后训练可以将推理能力有效地注入到模型中;而智能体通过推断时计算则可以激发大模型推理能力。
特别是最近接二连三涌现出的DeepSeek R1、OpenAI o1/o3、阿里云Marco-o1,Google Gemini-2 Flash Thinking和Microsoft Phi 4等一批推理大模型则印证了这个大模型的发展变化趋势的论断。基于强化学习后训练以及测试时算力扩展,将大模型的推理能力又推上一个新的台阶。而后者所呈现的推断时算力伸缩律(Inference-Time Compute Scaling Law)为提升AI能力提供了一个新维度。它会极大地影响智能体技术的发展走向,进而加速自主智能体应用的广泛扩展。
记者:智能体的应用机会在哪里?智能体在企业或机构中可以解决什么问题?基于大模型的智能体在其中的作用是什么?
鲁博士:“智能体”在实际应用中可能有多种理解。有人将其定义为完全自主的系统,这类系统能够在长时间内独立运行,使用多种工具完成复杂任务;也有人则将其用于描述更具指令性、遵循预定义工作流程的实现方式。不管怎样呈现,这些系统都具备智能体的属性,即具备不同程度的智能以及行动能力。
在当今AI特别是大模型已成为一种通用能力的情况下,智能体已经是企业和机构中的大模型应用的主要形式。前不久,大模型应用服务能力提供商LangChain针对1300多名各行各业的专业人士、中层主管和高层管理者进行了智能体现状的调查。大多数受访者表示在他们的生产和工作中经常使用智能体,其中约78%的企业积极计划尽快将智能体应用投入生产。
从我们以及一些第三方的调研反馈中,也了解到企业在将AI智能体融入工作流程时所面临的一些挑战和期望。企业希望智能体具备以下能力:
(1)多步骤任务管理:智能体在多步深入推理和上下文管理方面能力更强,能够处理更复杂的任务。
(2)任务自动化:智能体被视为办公自动化的重要工具,可以为用户腾出时间专注于更具创造性的问题解决。
(3)任务协同:更高效的任务分配确保合适的智能体在合适的时间处理合适的问题。尤其是在多智能体系统中,人们关注如何在智能体间有效协调和协作。
(4)类人推理:与单独使用LLMs不同,智能体能够追溯其决策,包括回溯时间、审查并基于新信息修订过去的决策。
智能体应用不仅要帮助人们处理日常任务,还要为知识工作的新可能性打开大门。智能体在企业和机构的一些主要应用场景包括:
(1)研究助手和内容总结:协助处理耗时的调研任务,从大量信息中检索提取关键的见解,进行文献综述或研究分析;
(2)办公个人助手:协助安排和组织日常任务来提高个人生产力,使用户能够专注于重要的事情;
(3)客户支持服务:帮助公司跨团队处理查询、排除故障并加快客户响应时间;
(4)AI辅助编程:通过自动化重复任务、提供智能建议和优化代码,大幅提升开发效率、降低错误率,并加速软件交付周期。
这些应用领域表明,智能体在以下任务中最具价值:需要对话与行动结合、有明确的成功标准、支持反馈回路并且能够实现有意义的人类监督。下面两个实例可以清晰地展示AI智能体如何在特定场景中通过对话、行动、反馈与监督的整合提升其使用价值。
比如,客户支持智能体可以将传统聊天机器人界面与工具集成的增强功能相结合,这个也是更开放式智能体的天然应用场景,原因在于:(1)支持交互通常需要遵循对话流程,同时访问外部信息和执行操作;(2)集成工具后可以提取客户数据、订单历史和知识库文章;(3)可以通过编程方式处理退款发放或工单更新等操作;(4)成功与否可以通过用户定义的解决方案明确衡量。
另一个的例子是编程智能体。在软件开发领域,LLM功能从代码补全发展到自主解决问题,展现了显著的应用潜力。智能体在AI编程这个领域尤为有效,原因在于:(1)代码解决方案可以通过自动化测试验证;(2)智能体可以使用测试结果作为反馈,迭代优化解决方案;(3)问题空间定义明确且结构化;(4)输出质量可以通过客观标准衡量。
然而,尽管自动测试能够验证所生成的解决方案的功能,但人工审查仍然至关重要,以确保方案符合更广泛的系统需求。
记者:基于大模型的智能体有什么局限吗?大模型智能体应用的挑战都有哪些?MoPaaS怎样帮助企业搞定智能体应用的落地?
鲁博士:人们对基于大模型的智能体充满期待,但实际的应用落地对许多用户来说仍然具有一定的难度。虽然作为智能体大脑的大模型展现出出色的能力,但是它们的一些局限也可能会影响到智能体的应用落地。比如大模型往往缺乏领域知识和长期记忆,或因信息过时生成的结果往往呈现幻觉或缺乏事实性,而且存在安全对齐隐患,而大模型微调技术门槛高、成本高,使得投入回报ROI不理想。特别是大模型仍然是一个黑箱。面对这样的挑战,企业的需求很现实,他们需要智能体能提供领域精准的答案,应对数据频繁更新,希望生成内容可解释可溯源,应用落地的成本可控,回报高,另外,要保障数据安全和隐私,以及和企业价值对齐。
针对这些挑战,我们MoPaaS打造了高效的人工智能系列平台产品和解决方案,提供从算力优化到AI应用开发的工具和环境,帮助企业和机构客户加速实现其数字转型和智能升级战略。尤其是,MoPaaS大模型AI平台和应用引擎提供高效的大模型应用开发和部署能力,使客户能够低代码地适配私有大模型,并能够零代码地构建各类大模型应用;我们基于自主技术构建的检索增强生成(RAG)和智能体大模型应用产品方案,其精度和性能远超过竞争对手或基于开源软件的同类产品或方案(如图2所示)。

图2 MoPaaS大模型AI平台和应用引擎:智能体应用
MoPaaS致力于构建一个全方位开放的AI技术和应用生态,打造一个完整的大模型AI应用加速业务闭环,以其大模型AI平台和应用引擎为支撑,提供AI人才培训、项目辅导和应用共建等业务环节,以低成本和高效率助力合作伙伴加速大模型与智能体应用的落地。
MoPaaS已经服务于工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过1000家的国内外客户,满足客户经典和生成式AI技术研发、人才培养和应用落地工程需求。MoPaaS是中国信通院国家大模型应用工程(LLMOps)标准的编撰单位,MoPaaS的产品和服务也收到市场广泛的认可,被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。
记者:安全是企业智能体应用的一个重要考虑因素,你能简单谈谈这方面的情况吗?
鲁博士:随着基于大模型的智能体技术的不断发展,智能体将在与人类及其他智能体的交互协作中得到更为广泛的应用,从简化日常任务到适应多样化的环境。然而,这也给智能体应用带来了一个重要挑战:如何在长程多轮交互中确保智能体的安全性?例如,如何使得手机控制的智能体规避隐私泄露或权限滥用的风险;如何避免因潜在的偏见和毒性提示问题而诱导智能体模型生成有害或不当的输出。
现有关于LLMs安全性的研究主要集中在内容安全方面,例如生成内容的冒犯性、公平性和偏见问题。然而,当基于LLM的智能体在多样化环境中多轮交互运行时,可能会出现新的系统性安全风险。这些风险涵盖了指令输入、环境感知、推理过程及工具使用等多个方面。比如,大模型对恶意提示的顺从、对良性请求的过度拒绝,以及遭受越狱攻击时模型必须即时响应,而没有足够的时间去考虑复杂或边界性的安全。另外,预训练大模型在应用中数据效率低下和决策边界不清晰,使得模型的一些推理能力不理想。而这些场景也极大地影响智能体的安全。
面临这些复杂的挑战,目前逐渐出现了一些应对办法,特别是最近以OpenAI o1推理大模型为代表的后训练和推断时计算的思路,不仅仅可以提升推理能力,而且对安全对齐有帮助。
但是,目前对基于LLM的智能体的安全性研究和了解仍然不充分。解决这些安全问题是确保智能体安全融入日常生活的关键所在。因此,需要进一步创新开发制定有效的防御策略,以应对智能体在复杂环境中的安全风险。此外,随着LLMs在智能体系统中广泛应用,也带来了新的幻觉、治理和伦理挑战。智能体架构最有可能提供系统性防御控制能力,确保基于LLM的智能体安全可控对齐。
记者:最后,请鲁博士就智能体的发展做一个总结。
鲁博士:今年诺贝尔物理奖和化学奖授予了人工智能及大模型相关的成果,这让人工智能特别是大模型技术受到更广泛的关注,这也会进一步推波助澜基于大模型的智能体应用的发展。大模型通过上下文提示学习和反馈闭环架构,使智能体具备多步推理、解决复杂问题及动态学习能力。智能体已被广泛应用于任务自动化、数据分析和代码生成等领域,成为企业创新和服务经济转型的重要引擎。
然而,基于LLM的智能体仍面临挑战,包括“幻觉”问题、任务分解困难、动态适应性不足以及潜在的安全风险。此外,依靠预训练扩展模型的规模来提升性能的模式因高成本和低回报正逐渐失去优势,推动技术重点转向更高效的基于强化学习的后训练和测试时计算的推理优化。新一代推理增强大模型,如OpenAI o1/o3和Google Gemini-2等,通过基于强化学习的后训练和测试时计算技术,在复杂任务处理和成本效益方面取得突破。
随着大模型技术的持续演进,智能体的能力边界和应用形态不断拓展,但要实现真正稳健的长期学习和动态适应性,仍需克服技术瓶颈。未来,智能体将通过更高效的技术和实践创新,在多行业领域释放更大潜能。MoPaaS也提供高效的大模型AI平台和应用引擎,并据此提供AI的人才培训、项目辅导,以及AI应用构建服务,低成本和高效率地助力合作伙伴加速大模型智能体应用的落地。
记者:鲁博士,您刚才详细阐述了智能体概念、大模型与智能体的关系、基于大模型的智能体架构的特点、基于大模型的智能体构建思路、大模型在推理能力上的突破,以及基于大模型的智能体在应用落地中面临的挑战,介绍了您公司在推动大模型和智能体应用方面所取得的成绩。我们相信,在我国科技工作者的努力下,大模型和智能体一定能得到更广泛的应用。非常感谢鲁博士接受我们的采访。
(本刊编辑部供稿)

关注公众号了解更多
会员申请 请在公众号内回复“个人会员”或“单位会员
欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢