导语

近日，中央经济工作会议在京召开，确定2025年九项重点任务，其中之一是以科技创新引领新质生产力发展，建设现代化产业体系，开展“人工智能+”行动。而智能体（AI Agent）已发展成为人工智能应用的主流形态，是连接用户与各类服务的新桥梁。

为了进一步推动智能体（AI Agent）技术创新和行业应用，北京海外高层次人才协会联合中国计算机学会自然语言处理专委会、中关村数智人工智能产业联盟、中国智能产业科技创新联盟，于 2024 年 12 月 19 日举办“后大语言模型时代，智能体技术和应用研讨会”。北京海外高层次人才协会副理事长、秘书长武沂；北京海外高层次人才协会副理事长、澜舟科技创始人兼CEO周明博士作开场致辞，此外，还有来自著名高校和智能体科创企业的7位学者和专家分享了智能体最新进展。

本次研讨会由北京澜舟科技有限公司承办，Datafun和始智AI协办。

北京海外高层次人才协会副理事长、秘书长武沂在致辞中表示，协会以支持北京科创中心建设为核心目标，始终坚持“团结、凝聚、服务在京地区优秀创新创业海外人才”的宗旨，搭平台、拓渠道、整合资源、深耕合作，大力促进海外人才聚集和发展。举办本次，希望通过分享智能体技术的应用实践及案例，共话产业新热点，洞见发展新趋势，从而推动人工智能领域持续创新发展，为首都经济转型升级和高质量发展注入新活力。

北京海外高层次人才协会副理事长、澜舟科技创始人兼CEO周明博士表示，从两年前GPT系列的初次亮相，到如今种类繁多的大模型，它们不仅在语言理解、生成、推理等方面能力持续提升，还在编码、图片以及视频的理解与生成上取得了显著进展，为广泛的应用奠定了基础。LLM作为人工智能的基础模型，技术已趋向成熟。

如今，人们开始更加重视AI技术的实际应用与社会价值，在此背景下，智能体（Agent）脱颖而出，成为后LLM时代最为重要的技术。

智能体凭借其强大的语言理解能力与多模态能力，成为连接人类与数字世界的桥梁。它们能够理解人类的指令，处理各种复杂任务，并以高效、准确的方式给予回应。智能体已广泛地应用到各行各业，但随着相关技术不断发展，也会面临众多的挑战，这些都应该引起业界广泛的关注。

智能体基本理论和研究

刘洋分享主题《智能体医院》

在前半部分“智能体基本理论和研究”主题中，清华大学万国数据教授、智能产业研究院执行院长刘洋带来《智能体医院》主题演讲，他表示，可进化性是自主智能体区分于大模型的一个重要特性，自主智能体能够在虚拟世界中进行长期进化，从而有可能在特定任务上超越人类水平。他介绍了医疗虚拟世界Agent Hospital，其中的患者、医生和护士都是由大模型驱动的自主智能体扮演。实验表明，医生智能体在虚拟世界中进化之后，诊疗能力获得了显著的提升。

桂韬分享主题《智能体基座模型构建》

复旦大学副研究员桂韬在《智能体基座模型构建》演讲中表示，智能体基座模型的构建对人工智能领域有重要作用，并指出智能体是具有感知环境、做出决策和采取行动能力的实体。他还提到了大型语言模型智能体的潜力，并探讨了如何通过交互式训练平台、多样化环境与任务以及自我演化算法来提升这些智能体的能力，并特别强调了AgentGym在线互动训练和评估平台的重要性，以及在多样化环境中培养具有基本能力和先验知识的基座智能体的必要性。

张倬胜分享主题《基于大模型的GUI终端智能体》

大模型智能体得到快速发展，极大地拓展了大模型能力边界和应用场景，应用落地水平不断提升，上海交通大学网络空间安全学院长聘教轨助理教授张倬胜在《基于大模型的GUI终端智能体》演讲中表示，代表性的例子为图形用户界面(GUI)智能体，其可以支持在终端设备上动态交互，完成类人操作，打通海量应用之间的壁垒，让多样化应用融为一体，得到了广泛的关注。然而，现阶段的智能体依然面临着环境理解、场景泛化、轻量化、安全等挑战，易过拟合、易被攻击，导致无法正确完成指令，甚至对用户或环境的破坏。保障智能体安全对齐任重道远，一方面需要保障智能体的内在安全可靠，另一方面需要防御系统层的攻击风险。

徐亮分享主题《AgentCLUE：可执行环境下的中文智能体评估基准》

CLUE中文自然语言理解评价基准、SuperCLUE中文大模型综合性测评基准负责人徐亮介绍，AgentCLUE旨在构建一个具备调用工具能力、多轮交互和可执行环境的中文Agent测评体系，以考察模型在理解任务需求、准确调用工具以及结合环境反馈进行反思改进的能力。AgentCLUE基于中文场景，提供可执行的测评环境，允许模型在与环境交互中反思改进，并通过多轮对话、函数缺失、参数缺失和长上下文干扰等多种任务类型进行测试；AgentCLUE的可调用函数涵盖即时消息、文件系统、旅游出行、智能座舱、博客、金融交易等多个常用场景。并通过对比模型回复的函数调用执行结果和系统环境状态与人工标注的正确答案，来评估模型的回答是否正确；未来AgentCLUE将扩展测评场景，包括休闲娱乐、办公助手、医疗等，并扩展测评环境，支持PC端、移动端以及多模态能力的Agent测试。

智能体应用