导语


集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的Agent建模与仿真」读书会。读书会自2025年7月8日开始,预计持续分享8周左右。扫码加入Agent建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!


本周是读书会的第三期分享,曾利博士将围绕强化学习从单智能体到深度策略优化的核心原理,解析状态、动作等概念及 DQN、PPO 等算法构建;深入多智能体强化学习范式,剖析非平稳性等挑战与主流模型机制;探讨融合大语言模型的多智能体建构,解析 LLM 引入路径与未来范式,展现从基础到前沿的技术演进与应用实践。

图片





分享背景




强化学习(Reinforcement Learning, RL)作为人工智能中建模“智能体-环境交互”的核心范式,近年来已在众多复杂系统中展现出惊人的性能。随着深度神经网络与计算资源的发展,RL已从传统的表格型方法迈向深度强化学习(Deep RL)阶段,极大拓展了其在高维状态空间下的泛化能力与实用性。


在此基础上,多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)应运而生,成为应对多方博弈、群体协作与复杂机制设计等问题的关键技术路径。近年来,MARL在多个领域取得了令人瞩目的成果:它不仅推动了《星际争霸II》、《德州扑克》、《陆军棋》等复杂博弈中超越人类的AI系统诞生,也在经济政策优化、仿人足球、多机器人协作、语言涌现与社会行为建模等任务中实现重大突破,成为连接智能体学习与群体智能的核心桥梁。强化学习也因此从单体智能迈向群体智能,从控制优化工具演化为“社会建模引擎”。


与此同时,大语言模型(Large Language Models, LLMs)的崛起,为构建具备推理、协作与语言能力的认知智能体提供了前所未有的技术基础。LLMs不仅能以自然语言感知环境、表达意图,更能作为策略生成器、通信协议或行为控制器嵌入强化学习体系中,成为多智能体系统中的“语言中枢”与“知识内核”。基于此,融合MARL与LLMs的认知型智能体系统,正逐步形成新的研究范式,为人工智能的泛化能力、交互能力与社会适应能力打开新局面。





分享简介




本次分享将围绕“单智能体强化学习 - 多智能体强化学习 - 大语言模型”这一技术进化路径,系统讲解从单智能体强化学习到多智能体协同的机制构建,再到融合语言模型的前沿探索,帮助您全面理解当代智能体系统的发展逻辑与未来趋势。





分享大纲



 

一、强化学习基础框架:从单智能体到深度策略优化的核心原理梳理

  • 理解智能体决策过程:系统解析状态、动作、奖励、策略、值函数等基本概念及其交互闭环;

  • 强化学习的典型方法谱系:从值函数方法(如Q-Learning、SARSA)到策略优化方法(如REINFORCE、PPO)的一体化进化;

  • 深度强化学习的关键机制:引入神经网络后的泛化能力、经验回放、目标网络、策略稳定性与样本效率提升机制;

  • 代表算法结构剖析:聚焦DQN与PPO算法的实际构建流程,搭建强化学习系统的基础认知图谱

  • 深度强化学习在组合优化问题求解中的应用实践:介绍深度强化学习在求解组合优化问题中的思路与案例


二、多智能体强化学习范式演进:从独立学习到群体协同的策略博弈建模

  • MARL问题定义与挑战全景:非平稳性、信用分配、策略耦合、通信建模等核心瓶颈分析;

  • 典型方法框架解析:从Independent Q-Learning到CTDE(集中训练、分布执行)框架下的VDN、QMIX、MADDPG、MAPPO等主流模型机制;

  • 多智能体强化学习经典工作:回顾多智能体强化学习在复杂博弈与协作任务中的经典工作;


三、融合大语言模型的多智能体智能体建构:LLM-Agents范式的兴起与技术逻辑

  • LLM引入的三类路径:作为状态嵌入器(语言感知)、策略生成器(行为规划)与通信引擎(信息交互)

  • 构建语言协同智能体:刻画语言中的目标意图、环境状态与多智能体指令分发关系,实现“语言即策略”;

  • 展望未来:LLM-Agents作为通用型协作智能体架构的雏形,将如何重构群体智能与复杂系统建模的新范式。





核心术语




  • 强化学习 / 深度强化学习 / 马尔可夫决策过程 / 组合优化

  • 多智能体强化学习 / 博弈论 / 蒙特卡罗树搜索 / 大语言模型





参考文献



 

  • Albrecht, Stefano V., Filippos Christianos, and Lukas Schäfer. Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press, 2024.

  • Zhang, Kaiqing, Zhuoran Yang, and Tamer Başar. "Multi-agent reinforcement learning: A selective overview of theories and algorithms." Handbook of reinforcement learning and control (2021): 321-384.

  • Yang, Yaodong, and Jun Wang. "An overview of multi-agent reinforcement learning from game theoretical perspective." arXiv preprint arXiv:2011.00583 (2020).

  • Nowé, Ann, Peter Vrancx, and Yann-Michaël De Hauwere. "Game theory and multi-agent reinforcement learning." Reinforcement learning: State-of-the-art. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. 441-470.

  • Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." nature 518.7540 (2015): 529-533.

  • Moravčík, Matej, et al. "Deepstack: Expert-level artificial intelligence in heads-up no-limit poker." Science 356.6337 (2017): 508-513.

  • Vinyals, Oriol, et al. "Grandmaster level in StarCraft II using multi-agent reinforcement learning." nature 575.7782 (2019): 350-354.

  • Jaderberg, Max, et al. "Human-level performance in 3D multiplayer games with population-based reinforcement learning." Science 364.6443 (2019): 859-865.

  • Schrittwieser, Julian, et al. "Mastering atari, go, chess and shogi by planning with a learned model." Nature 588.7839 (2020): 604-609.

  • Fan, C., Zeng, L., Sun, Y., & Liu, Y. Y. (2020). Finding key players in complex networks through deep reinforcement learning. Nature machine intelligence2(6), 317-324.

  • Fan, Changjun, et al. "Searching for spin glass ground states through deep reinforcement learning." Nature communications 14.1 (2023): 725.

  • Pu, T., Chen, C., Zeng, L., Liu, S., Sun, R., & Fan, C. (2024, December). Solving Combinatorial Optimization Problem Over Graph Through QUBO Transformation and Deep Reinforcement Learning. In 2024 IEEE International Conference on Data Mining (ICDM) (pp. 390-399). IEEE.

  • Perolat, Julien, et al. "Mastering the game of Stratego with model-free multiagent reinforcement learning." Science 378.6623 (2022): 990-996.

  • Kaufmann, Elia, et al. "Champion-level drone racing using deep reinforcement learning." Nature 620.7976 (2023): 982-987

  • Lutz, Isaac D., et al. "Top-down design of protein architectures with reinforcement learning." Science 380.6642 (2023): 266-273.

  • McKee, Kevin R., et al. "Scaffolding cooperation in human groups with deep reinforcement learning." Nature Human Behaviour 7.10 (2023): 1787-1796.

  • Ma, Chengdong, et al. "Efficient and scalable reinforcement learning for large-scale network control." Nature Machine Intelligence 6.9 (2024): 1006-1020.

  • Hafner, Danijar, et al. "Mastering diverse control tasks through world models." Nature (2025): 1-7.

  • Zhuang, Yuan, et al. "Yolo-marl: You only llm once for multi-agent reinforcement learning." arXiv preprint arXiv:2410.03997 (2024).

  • Nagpal, Kartik, et al. "Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment." arXiv preprint arXiv:2502.16863 (2025).

  • Jiang, Zhouyang, et al. "QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?." arXiv preprint arXiv:2504.12961 (2025).

  • Hao, Qianyue, et al. "Llm-explorer: A plug-in reinforcement learning policy exploration enhancement driven by large language models." arXiv preprint arXiv:2505.15293 (2025).




主讲人介绍




曾利,国防科技大学系统工程学院二年级在读博士,立理AI联合创始人。本硕博均就读于国防科技大学,在Nature Machine Intelligence、ICDM、CIKM、科研管理等会议和期刊上发表学术论文30余篇。

研究方向:复杂网络、强化学习、组合优化、大语言模型等





参与方式




参与时间

2025年7月22日(周二)晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/923?from=wechat


扫码参与大模型时代下的Agent建模与仿真」读书会,,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同大模型时代的未来人工社会图景。



「大模型时代下的Agent建模与仿真」读书会


集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的Agent建模与仿真」读书会。读书会自2025年7月8日开始,每周二晚上7:30-9:30进行,预计持续分享8周左右。扫码加入Agent建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!

核心问题

Agent建模与仿真是什么,核心技术发生了怎样的演变?
大模型时代,Agent建模与仿真会给复杂系统理论带来哪些突破?
大模型如何赋能Agent实现自主思考与动态适应?
大模型驱动的Agent交互会涌现出什么新型的社会现象?
Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?

你将收获
梳理Agent建模与仿真的历史发展脉络与方法论;
掌握一套理解、分析、控制、预测复杂系统的计算实验框架;
掌握基于多主体强化学习的复杂系统优化方法;
领略领域前沿学者的研究体系与科研路径。

图片

详情请见:大模型时代下的Agent建模与仿真:共探人工社会未来图景


点击“阅读原文”,报名读书会

内容中包含的图片若涉及版权问题,请及时与我们联系删除