Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

简介

有些人认为，人工智能（AI）的出现可以提供更好的决策和增加军事效力，同时减少人为错误和情感的影响。然而，关于AI系统，特别是大型语言模型（LLMs）在高风险军事决策情境中与人类的表现相比如何，仍存在争议。这种情况可能会增加升级和不必要冲突的风险。为了测试这种潜在情况并审查LLMs在此类目的中的应用，我们使用了一个新的战争游戏实验，涉及107名国家安全专家，旨在研究虚构的美中情境下的危机升级，并将人类玩家与LLM模拟响应进行了分别模拟的比较。战争游戏在军事战略的发展和国家对威胁或攻击的反应方面具有悠久的历史。在这里，我们展示了LLM和人类响应的相当高水平的一致性，以及个体行动和战略倾向的显著数量和质量差异。这些差异取决于LLMs对于遵循战略指令后适当的暴力水平的内在偏见、LLM的选择以及LLMs是否被要求直接为玩家团队做出决策或首先模拟玩家之间的对话。当模拟对话时，讨论缺乏质量并保持荒谬的和谐。LLM模拟无法考虑到人类玩家的特征，即使是极端特征，如“和平主义者”或“侵略性社交病态者”，也没有显著差异。我们的结果促使决策者在授予自主权或遵循基于AI的战略建议之前要谨慎。
图表
解决问题

研究人员试图验证大型语言模型（LLM）在高风险军事决策情景中与人类行为的相似性和差异性，以及LLM在决策过程中存在的内在偏见和缺陷。
关键思路

通过对107名国家安全专家进行战争游戏实验，将LLM的模拟响应与人类玩家进行比较，发现在高层次上存在相当的一致性，但在个人行动和战略倾向上存在显著的数量和质量差异，这些差异取决于LLM的内在偏见和选择，以及LLM是否直接为玩家团队做出决策或首先模拟玩家之间的对话。
其它亮点

实验设计了一种新的战争游戏实验，使用了107名国家安全专家参与，发现LLM在决策过程中存在内在偏见和缺陷，不能代表人类行为，提示政策制定者在授权或遵循基于AI的策略建议之前要谨慎。
相关研究

近期相关研究包括： 1. "The Ethics of Artificial Intelligence in U.S. Warfare"（美国战争中人工智能的伦理问题） 2. "Artificial Intelligence and National Security"（人工智能与国家安全） 3. "The Future of Warfare and the Role of Artificial Intelligence"（未来的战争和人工智能的作用）

Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

评论