Hugging Face引入Decision Transformers，支持离线强化学习

离线强化学习旨在从一批收集的数据中学习最佳策略，而在训练过程中无需与环境进行额外的交互。

离线vs在线RL

昨日Hugging Face将一种离线强化学习方法Decision Transformers引入其Hub及Transformers库中。Decision Transformers将强化学习抽象为条件序列建模问题，其主要想法是：使用序列建模算法（Transformers）而不是使用RL方法（例如拟合值函数）训练策略，该策略将告诉我们要采取什么行动来最大化回报（累积奖励），该算法将给定所需的回报、过去状态和操作，生成未来操作以实现所需的回报。这是一个以预期回报、过去状态和行动为条件的自回归模型，以生成实现预期回报的未来操作。

这是强化学习范式的完全转变，因为我们使用生成轨迹建模（建模状态、动作和奖励序列的联合分布）来取代传统的RL算法。这意味着在Decision Transformers中，不会最大化回报，而是生成一系列实现预期回报的未来行动。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Hugging Face引入Decision Transformers，支持离线强化学习

评论列表

评论