用AI控制核聚变，DeepMind再登Nature

发布时间:2022年03月08日来源：中国人工智能学会作者：数据实战派浏览量：2,638

前沿丨前所未有：用AI控制核聚变，DeepMind再登Nature

毫无疑问，DeepMind 正在加速将其 AI 算法应用于最前沿的科学问题上。

继此前振奋业界的蛋白质预测成果之后，今日，DeepMind又一个硬核研究亮相，在这篇名为Magnetic control of tokamak plasmas through deep reinforcement learning的nature文章，DeepMind的科学家和来自Swiss Plasma Center - EPFL的研究者，共同提出了一种强化学习算法，来控制托卡马克核聚变反应堆内的等离子体。

这一进展将可以帮助物理学家更好地了解聚变的工作原理，并有希望加速这种“终极能源”的到来。

前沿丨前所未有：用AI控制核聚变，DeepMind再登Nature

“在现实世界系统中最具挑战性的应用之一”

太阳源源不断的能量来自于原子核的聚合反应，即核聚变。因此，可控核聚变技术的实验装置，常被称作“人造太阳”。

但一直以来，人们希望找到有效控制和限制等离子体的方法，只有这样这种“终极能源”才能为人类所利用。

具体到工程实现上，科学家们正在尝试借助托卡马克装置通过使用磁场限制等离子体。

在托卡马克装置中，磁场线圈会限制等离子体粒子，以使等离子体达到聚变所需的条件。如下图所示，一组磁线圈产生一个强烈的“环形”场，围绕环面进行引导。一个中央螺线管（承载电流的磁体）产生一个沿“极向”方向的第二个磁场，即围绕环面的路径。这两个场产生了一个扭曲的磁场，将粒子限制在等离子体中。此外，还会有第三组磁线圈产生一个外极向场，用于塑造和定位等离子体。

前沿丨前所未有：用AI控制核聚变，DeepMind再登Nature

图丨环形场线圈（蓝色）、中央螺线管（绿色）和极向场线圈（灰色）。环面周围的磁场（黑色）限制了带电等离子体粒子的行进路径。（来源：EUROfusion）

其中一个困难之处在于，尽管这些控制器通常很有效，但每一次研究人员想要改变等离子体的配置，并尝试不同的形状以产生更多的能量或更清洁的等离子体时，都需要基于模型和仔细的模拟，进行大量的工程和设计工作，并平衡复杂的实时计算。

在DeepMind的这个方案中，通过使用强化学习（RL）生成非线性反馈控制器，一种全新的等离子体控制方法成为可能。DeepMind的研究员Martin Riedmiller表示：“这是强化学习在现实世界系统中最具挑战性的应用之一”。

具体方案细节

他们开发了一个深度强化学习系统，来控制瑞士等离子体中心的可变配置托卡马克内的19个电磁线圈，设计架构如下图所示：

前沿丨前所未有：用AI控制核聚变，DeepMind再登Nature

其包含以下三个主要阶段：首先，设计者指定实验目标，可能伴有时变控制目标。其次，深度RL算法与 tokamak仿真器交互，寻找接近最优的控制策略以满足指定的目标。第三，控制策略以神经网络的形式直接在tokamak硬件上实时运行。

在第一阶段，实验目标由一组目标指定，这些目标可以包含各种各样的期望属性。这些属性范围从位置和等离子体电流的基本稳定到多个时变目标的复杂组合，包括具有指定延伸率、三角形和X-点位置的精确形状轮廓。然后，将这些目标组合为一个“奖励函数”，在每个时间步中为状态分配标量质量度量。这个函数还惩罚达到不是所期望的终端状态的控制策略，如下所述。最重要的是，精心设计的奖励函数将被最小化，以给予学习算法最大的灵活性，进而达到预期的结果。

在第二个阶段，如图1a，b所示，高性能RL算法收集数据并通过与环境交互发现控制策略。

研究团队使用具有足够保真度的仿真器来描述等离子体形状和电流的演变，同时保持足够低的学习计算成本。

具体而言，团队采用了自由边界等离子体演化模型，以模拟极场线圈电压影响下等离子体状态演化的动力学过程。在该模型中，线圈和无源导体中的电流在电源外部施加的电压，以及其他导体和等离子体内部随时间变化的电流产生的感应电压的影响下发生变化。反过来，等离子体由Grad-Shafranov（G-S）方程模拟。这组方程由FGE软件包进行数值求解。

RL算法利用收集到的仿真器数据，针对指定的奖励函数找到一个接近最优的策略。

由于等离子体状态演化的计算要求，团队成员采用仿真器的数据速率明显低于典型的RL环境。因此，研究团队通过使用最大后验策略优化（MPO, maximum a posteriori policy optimization）算法，以克服数据缺乏的问题。MPO支持跨分布式并行流的数据收集，并以数据高效的方式进行学习。

在第三阶段，将控制策略与相关的实验控制目标捆绑在一个可执行文件中，使用专为10 khz实时控制而设计的编译器，以最小化依赖并消除不必要的计算。

该可执行文件由TCV控制框架加载而来（图1d）。每个实验都始于标准的等离子体形成过程，在此过程中，传统的控制器保持等离子体的位置和总电流。在称为“移交”（handover）的预定时间，控制切换到团队所采用的控制策略，然后启动19个TCV控制线圈，将等离子体形状和电流转换到期望目标。实验在训练后不进一步调整控制策略网络权重，换句话说，从仿真到硬件有“zero-shot”的转移。

控制策略通过学习过程的几个关键属性可靠地传递到 TCV，如图1b所示。研究团队确定了一种执行器和传感器模型，该模型包含了影响控制稳定性的特性，如延迟、测量噪声和控制电压偏移。团队成员通过分析实验数据，在训练过程中对等离子体压力、电流密度剖面和等离子体电阻率在适当的范围内应用了有针对性的参数变化，以解释变化的、不受控制的实验条件。

这在保证性能的同时，可以提供一定的健壮性。虽然仿真器通常是准确的，但在已知的一些区域性能表现欠佳。因此，团队在训练循环中建立了“学习区域回避”（learned-region avoidance），通过使用奖励和终止条件来避免这些问题，即当遇到特定条件时，立即停止模拟。