每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents
Zhuosheng Zhang,
Yao Yao,
Aston Zhang
2023年11月20日
大型语言模型(LLMs)极大地增强了语言智能领域,其在各种复杂推理任务中的强大实证表现证明了这一点。此外,理论证明已经阐明了它们的新兴推理能力,提供了一个令人信服的展示,证明了它们在语言环境中的先进认知能力。在处理复杂推理任务方面,CoT推理技术对于LLMs的显著功效至关重要,因为它们必须制定中间步骤以便推导出答案。CoT推理方法不仅在增强推理性能方面表现出熟练的能力,而且在提高可解释性、可控性和灵活性方面也表现出了优异的能力。鉴于这些优点,最近的研究努力将CoT推理方法扩展到培养自主语言代理的发展,这些代理能够熟练地遵循语言指令并在不同环境中执行动作。本文梳理了一个全面的讨论,深入探讨了重要的研究维度,包括:(i)CoT技术的基础机制,重点阐述其功效的情况和理由;(ii)CoT的范式转变;以及(iii)由CoT方法强化的语言代理的兴起。未来的研究方向包括探索泛化、效率、定制、扩展和安全性。本文适合广泛的受众,包括寻求全面了解CoT推理和语言代理的初学者,以及对基础机制感兴趣并参与最前沿讨论的经验丰富的研究人员。相关论文的存储库可在https://github.com/Zoeyyao27/CoT-Igniting-Agent上找到。
23
热度
NLP
AI
CV
PDF
解读
JaxMARL: Multi-Agent RL Environments in JAX
Alexander Rutherford,
Benjamin Ellis,
Matteo Gallici
2023年11月16日
基准测试在机器学习算法的发展中扮演着重要角色。例如,强化学习(RL)的研究受到可用环境和基准测试的极大影响。然而,RL环境通常在CPU上运行,限制了它们在典型学术计算中的可扩展性。JAX的最新进展使得更广泛地使用硬件加速来克服这些计算障碍,实现了大规模并行RL训练管道和环境。这对于多智能体强化学习(MARL)研究尤为有用。首先,每个环境步骤必须考虑多个智能体,增加了计算负担;其次,由于非稳态、分散部分可观测性或其他MARL挑战,样本复杂度增加。本文介绍了JaxMARL,这是第一个将易用性与GPU启用效率相结合的开源代码库,并支持大量常用的MARL环境和流行的基准算法。当考虑到墙钟时间时,我们的实验表明,与现有方法相比,我们基于JAX的训练管道每次运行最多快12500倍。这使得评估更加高效和全面,有潜力缓解该领域的评估危机。我们还介绍和基准测试了SMAX,这是一个向量化、简化版本的流行星际争霸多智能体挑战赛,它消除了运行星际争霸II游戏引擎的需要。这不仅实现了GPU加速,而且提供了更灵活的MARL环境,为自我对弈、元学习和其他未来的MARL应用开启了潜力。我们在https://github.com/flairox/jaxmarl提供了代码。
ML
AI
MultiAgent
PDF
解读