【标题】Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation
【作者团队】Xiaoyu Chen, Han Zhong, Zhuoran Yang, Zhaoran Wang, Liwei Wang
【发表日期】2022.5.23
【论文链接】https://arxiv.org/pdf/2205.11140.pdf
【推荐理由】本文研究具有轨迹偏好的human-in-the-loop强化学习 (RL),其中智能体不会在每一步接收数字奖励,而是仅从人类监督者那里接收对轨迹对的偏好。智能体的目标是学习人类监督者最喜欢的最优策略。尽管取得了经验上的成功,但对基于偏好的强化学习(PbRL)的理论理解仅限于表格案例。本文提出了第一个具有一般函数逼近的基于乐观模型的 PbRL 算法,该算法使用价值目标回归估计模型,并通过解决乐观规划问题来计算探索性策略。本文的下限表明此算法在专门用于线性设置时接近最优。此外,本文通过制定一个新的问题来扩展 PbRL 问题,称为 RL 与 n-wise 比较,并为这个新设置提供第一个样本高效算法。本文是具有(一般)函数逼近的 PbRL 的第一个理论结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢