AI可控核聚变新突破!DeepMind最新研究用RL算法,将等离子体形状精度提升65%,为「人造太阳」精准放电指明道路。

秘密研发3年,DeepMind去年宣称,首次成功用AI控制「托卡马克」内部等离子体。其重磅成果登上Nature。

时隔一年,谷歌AI团队在这一领域再次取得突破。最新实验模拟中,将等离子体形状精度提高了65%。

DeepMind团队基于上次的研究,对智能体架构和训练过程提出了算法改进。研究发现,等离子形状精度提高的同时,还降低了电流的稳态误差。甚至,学习新任务所需的训练时间减少了3倍还要多。

 

 

论文地址:https://arxiv.org/pdf/2307.11546.pdf 

从「星际争霸」AI碾压人类,到AlphaGo大战李世石、AI预测蛋白质折叠,DeepMind已经将人工智能算法深入到了足以改世界的不同领域。

这次,DeepMind最细实验模拟结果,为RL实现精确放电指明了道路。

这一里程碑式的成果,标志着「人造太阳」可控放电离人类终极能源的未来又进了一步。

RL揭开核聚变奥秘

一旦人类掌握了可控核聚变能,将可拥有无穷不尽的清洁能源。要知道,反馈控制对于「托卡马克装置」的运行至关重要。而控制系统会主动管理磁线圈,以控制拉长离子体的不稳定性,防止破坏性的垂直事件发生。

此外,人类若能实现对等离子体电流、位置和形状的精确控制,还可以实现热排放,甚至对其能量的管理。

一直以来,科学家们致力于研究等离子体配置变化对这些相关量的影响。因此就需要能够用于新配置,以及围绕标称场景快速变化的系统。

传统上,等离子体的精确控制是通过等离子体电流、形状和位置的连续闭环来实现的。

在这种模式下,控制设计者预先计算出一组前馈线圈电流,然后为每个受控量建立反馈回路。等离子体形状和位置无法直接测量,必须通过磁场测量实时间接估算。

尤其是等离子体的形状,必须使用平衡重构代码进行实时估算。

虽然这类系统已成功稳定了大范围的放电,但其设计不仅具有挑战性,还耗时,特别是针对新型等离子体情况。

值得一体的是,强化学习(RL)已成为构建实时控制系统的另一种全新范式。

2022年,DeepMind团队登上Nature的一篇论文表明,RL设计的系统能够成功实现「托卡马克磁控制」的主要功能。

 

论文地址:https://www.nature.com/articles/s41586-021-04301-9

这项工作提出了一个系统,RL智能体通过与FGE 托卡马克模拟器交互,学习控制托卡马克配置变量(TCV)。

智能体学习的控制策略随后被集成到TCV控制系统中,通过观察TCV的磁场测量,并为所有19个磁控线圈输出控制指令。

尤其,研究人员展示了RL智能体控制各种情况的能力,包括高度拉长的等离子体、雪花。

甚至还展示了同时在真空室中,使用两个独立等离子体稳定「液滴 」配置的新方法。

AI控制下生成的几种不同等离子几何形状

但是,RL方法有许多缺点,限制了其作为控制托卡马克等离子体的实用解决方案的应用。

最新研究中,DeepMind决定要解决三个挑战:

  • 指定一个既可学习又能激发精确控制器性能的标量奖励函数
  • 追踪误差的稳态误差
  • 较长的训练时间

首先,团队提出了「奖励塑形」的方法,以提高控制精度。

然后,通过向智能体提供明确的错误信号,和集成错误信号来解决积分器反馈中的稳态误差问题。这缩小了经典控制器和强化学习控制器之间的精度差距。

最后,在片段分块和迁移学习中,解决了生成控制策略所需的训练时间问题。

研究人员针对复杂的放电情况采用了多重启动方法,使得训练时间大幅缩减。

此外,研究还表明,当相关新情景与之前的情景接近时,使用现有控制策略进行热启动训练,是一种非常有效的工具。

总之,这些技术大大缩短了训练时间,提高了精确度,从而使RL成为等离子体控制的常规可用技术取得了长足进步。

强化学习控制等离子体

最新论文中,研究人员采用与Nature那篇论文相同的基本实验。

RL通过与模拟环境的交互,学习特定实验的控制策略𝜋,然后TCV上部署由此产生的放电策略。

具体来讲,使用自由边界模拟器FGE进行动态建模,并添加了额外随机性,以模拟传感器值和电源的噪声,并改变等离子体的参数。

传感器噪声适用于每个环境步骤,而等离子体参数变化(等离子体电阻率𝑅𝑝、归一化等离子体压力𝛽𝑝、等离子体轴安全系数)则经过简化,因此其值在一个事件内是恒定的,但在两个事件之间随机取样。

然后,研究人员使用最大后验优化(MPO)算法来制定控制策略。

MPO依靠两个神经网络:一个是输出当前策略𝜋的actor网络,另一个是近似该策略预期累积奖励的critic网络。

智能体与1000份FGE环境进行交互,收集看到的观察结果、采取的行动,以及获得的奖励。

每一步获得的奖励,都是根据等离子体状态与参考值中包含的目标值的接近程度来计算的,并辅以其他因素,如避免不良等离子体状态。

从最优控制范式到强化学习的直接转换是,为每个要最小化的误差项设置一个奖励分量,其中每个分量𝑖都被映射为一个标量值𝑥𝑖。

然后将这些值合并为一个标量奖励值。

根据观察、行动和奖励的记录序列,智能体使用正则化损失函数上的梯度下降交替更新策略和critic网络。更新后的actor网络参数将用于未来与环境的交互。

对于等离子体放电,actor网络被限制在一个能以10kHz频率执行的小型架构中,但critic网络只在训练过程中使用,因此可以足够复杂地学习环境动态。

面向实用的的强化学习控制器

在具体任务实操中,研究人员演示了智能体具体训练过程。

首先讨论了通过奖励塑形来提高控制精度。然后介绍了通过积分观测来减少稳态误差的工作,讨论了使用「episode chunking」来改善现实的训练时间。最后探讨了迁移学习作为提高训练效率的手段。

奖励塑形(reward shaping)

传统控制算法用各种办法来最小化主动测量(或估计)的数量误差,而强化学习(RL)算法则旨在最大化一个通用定义的奖励信号。

在训练过程中,这种奖励最大化目标能推动智能体行为的演化,但是在部署时不会计算奖励值。

在经典控制算法中,控制器的性能可以通过显式调整控制增益(例如,修改响应性或干扰抑制)和调整多项输入多项输出(MIMO)系统的权衡权重来进行调整。

相比之下,在强化学习中,奖励函数对于被学习的控制器行为至关重要。

因此,需要仔细设计奖励函数来调整控制器行为。

在本节中,研究人员探讨了如何修改奖励的设计,以引发最终训练得到的智能体去进行我们所期望的行为。

研究人员发现,通过调整奖励函数的设计,他们可以快速适应智能体的行为,并权衡目标的不同方面。

此外,研究人员证明了塑形奖励函数对于创建准确的强化学习控制策略是必不可少的。

而且他们进一步展示了通过使用更新后的奖励函数继续训练,可以将智能体应用到新的目标上。

参考资料:

https://arxiv.org/abs/2307.11546 

https://twitter.com/GoogleDeepMind/status/1684217852289601541

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除