Safe Multi-agent Reinforcement Learning with Natural Language Constraints

简介

自然语言约束在安全多智能体强化学习（MARL）中的作用至关重要，但经常被忽视。虽然安全MARL在机器人和自主车辆等领域具有广泛的潜力，但其完整潜力受到需要以预先设计的数学术语定义约束的限制，这需要广泛的领域专业知识和强化学习知识，从而阻碍了其更广泛的采用。为了解决这个限制并使安全MARL更易于访问和适应，我们提出了一种名为“自然语言约束下的安全多智能体强化学习”（SMALL）的新方法。我们的方法利用经过微调的语言模型来解释和处理自由形式的文本约束，将其转换为捕捉禁止状态和行为本质的语义嵌入。然后将这些嵌入集成到多智能体策略学习过程中，使代理能够学习最小化约束违规的策略，同时优化奖励。为了评估SMALL的有效性，我们引入了LaMaSafe，一个多任务基准，旨在评估多个代理在遵守自然语言约束方面的表现。在各种环境中进行的实证评估表明，SMALL实现了可比的奖励和显着减少的约束违规，突显了其理解和执行自然语言约束的有效性。
图表
解决问题

本论文旨在解决Safe Multi-agent Reinforcement Learning (MARL)中自然语言限制的问题，提出了一种名为SMALL的新方法，旨在使Safe MARL更加易于理解和适应。
关键思路

SMALL方法利用经过微调的语言模型来解释和处理自由文本限制，将其转换为捕捉禁止状态和行为本质的语义嵌入。然后将这些嵌入集成到多智能体策略学习过程中，使代理学习最小化约束违规的策略同时优化奖励。
其它亮点

论文提出了一种新的方法SMALL，通过自然语言限制来提高多智能体强化学习的安全性；作者提出了一个名为LaMaSafe的多任务基准测试，用于评估代理在遵守自然语言限制方面的表现；实验结果表明，SMALL在理解和执行自然语言限制方面非常有效。
相关研究

在该领域中，还有一些相关研究，如《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《Learning Multiagent Communication with Backpropagation》等。

Safe Multi-agent Reinforcement Learning with Natural Language Constraints

评论