《强化学习周刊》第60期：BARReL、RL-Mlzerd & DeepIndex

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第60期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了15篇强化学习领域的相关论文，主要介绍了新的代数强化学习框架将整数可行性问题转化为一组具有固定边距和的数组上的博弈、提出了用于从未知环境中的agent体验片段中学习非马尔可夫任务规范的有限状态“任务自动机”、基于视觉的强化学习智能体提高对抗性攻击的敏感性和鲁棒性、基于误差控制行为体批评（ECAC）以降低近似误差、基于学习的成本估算的自动指标选择器以提高指标选择的质量、基于Multiple Choice QMIX的新MARL方法来解决有偏差的Q值问题、最后介绍了基于强化学习的自主无人机导航系统综述等。

标题：Turning Mathematics Problems into Games: Reinforcement Learning and Gröbner bases together solve Integer Feasibility Problems（加州大学戴维斯分校:Yue Wu | 将数学问题转化为博弈：强化学习和Gröbner基础共同解决整数可行性问题）

简介：可以通过玩游戏来训练代理人回答困难的数学问题吗？考虑整数可行性问题，这是一个确定线性方程组和不等式组是否具有整数值解的挑战。本文描述了新的代数强化学习框架，解释了如何将整数可行性问题转化为一组具有固定边距和的数组上的博弈。游戏从初始状态（数组）开始，通过应用保持边距不变的合法移动，其目标是最终达到在特定位置为零的获胜状态。关键的代数成分是底层轴向运输多面体复曲面理想的Gröbner。Gröbner基础可以被视为博弈中一组连接动作（动作）。该方法训练智能体预测连续空间中的移动，以应对大尺寸的动作空间。然后将连续移动投影到一组合法移动上，以便路径始终指向有效状态。研究结果表明，其可以很好地玩最简单的双向桌游戏。并通过当代机器学习方法训练代理解决非平凡数学查询的潜力，以用于训练智能体玩游戏。

《强化学习周刊》第60期：BARReL、RL-Mlzerd & DeepIndex

关于周刊：

关于周刊订阅：

论文推荐

研究综述

评论列表

评论