trlX 是一个分布式训练框架,从头开始设计,专注于使用提供的奖励函数或奖励标记数据集通过强化学习微调大型语言模型。

培训支持🤗拥抱面部模型由 Accelerate 支持的训练器提供,允许用户微调高达 5B 参数的因果和基于 T20 的语言模型,例如 、 和 。对于超过 20B 参数的型号,trlX 提供了 NVIDIA NeMo 支持的训练器,利用高效的并行技术来有效扩展。

Github地址:https://github.com/CarperAI/trlx 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除