DeepMind用「强化学习」训练「正能量」聊天机器人：再也不用担心AI乱说话了！

近年来，大型语言模型（LLMs）已经在一系列任务中取得了显著进步，比如问题回答、文本摘要和人机对话等。

人机对话是一项特别有趣的任务，因为它具有灵活和互动的交流特点，但基于LLM的对话智能体（dialogue agent）可能会表达不准确的、甚至是捏造的信息，或者是使用歧视性语言，鼓励用户进行危险行为等。

为了创造更安全的对话智能体，DeepMind在最新论文中提出了Sparrow（麻雀）模型，探索了训练对话智能体的新方法，即从人类的反馈中学习，使用基于研究参与者输入的强化学习，能够减少生成不安全和不适当答案的风险。