训练模型的极速,与 1500 行源代码的精简,清华大学新开源强化学习平台「天授」。值得注意的是,该项目的两位主要作者目前都是清华大学的本科生。 是否你也有这样的感觉,成熟 ML 工具的源码很难懂,各种继承与处理关系需要花很多时间一点点理清。在清华大学开源的「天授」项目中,它以极简的代码实现了很多极速的强化学习算法。重点是,天授框架的源码很容易懂,不会有太复杂的逻辑关系。

项目地址:https://github.com/thu-ml/tianshou

天授(Tianshou)是纯 基于 PyTorch 代码的强化学习框架,与目前现有基于 TensorFlow 的强化学习库不同,天授的类继承并不复杂,API 也不是很繁琐。最重要的是,天授的训练速度非常快,我们试用 Pythonic 的 API 就能快速构建与训练 RL 智能体。

目前天授支持的 RL 算法有如下几种:

Policy Gradient (PG) Deep Q-Network (DQN) Double DQN (DDQN) with n-step returns Advantage Actor-Critic (A2C) Deep Deterministic Policy Gradient (DDPG) Proximal Policy Optimization (PPO) Twin Delayed DDPG (TD3) Soft Actor-Critic (SAC)

另外,对于以上代码天授还支持并行收集样本,并且所有算法均统一改写为基于 replay-buffer 的形式。

内容中包含的图片若涉及版权问题,请及时与我们联系删除