- 简介我们提出了一种可扩展的方法学,用于在多轮交互场景中评估语言模型,其核心是一组需围绕私有信息开展有效沟通的协作性游戏。该方法支持一种交互式缩放分析:在总令牌预算固定的前提下,将预算动态分配至可变数量的对话轮次中。我们发现,在许多情况下,尽管存在显著的提升空间,语言模型却无法借助交互式协作来超越非交互式基线情形——即一个智能体单次尝试概括自身所掌握的信息,而另一智能体随即立即采取行动。这一结果表明,当前最先进的语言模型在规划与执行多轮协作对话方面仍存在明显缺陷。我们进一步分析了此类对话的语篇特征,重点考察了“迎合倾向”(sycophancy)、信息密度以及话语连贯性所扮演的角色。尽管尚无单一的语言学特征能够充分解释当代语言模型在协作能力上的不足,但我们观察到:人类在达成相近任务成功率的同时,能以更优的令牌使用效率完成对话,其产出的对话在连贯性上普遍优于大多数语言模型。对私有信息的主动管理,是现实世界人际沟通的一项本质性特征;我们期望MT-PingEval评估框架能够推动学界进一步开展相关研究,切实提升语言模型在该关键能力上的表现。
-
- 图表
- 解决问题论文试图解决当前语言模型在多轮协作对话中有效利用私有信息进行协同规划与执行的能力不足问题,验证了模型是否能通过交互式协作(而非单轮总结)提升任务表现。这不是全新问题,但首次系统性地在固定token预算下进行交互式可扩展性分析,聚焦于协作沟通中的私有信息管理这一现实关键能力。
- 关键思路提出MT-PingEval评估框架:设计一系列需共享私有信息的协作游戏(如描述-重建、隐含推理等),在总token预算恒定前提下,系统调节对话轮次(turns),对比多轮交互策略与单轮非交互基线(一代理 summarization + 另一代理 immediate action)的表现差距;核心新意在于将‘交互效率’显式建模为可测量维度,并揭示模型无法将额外轮次转化为性能增益的根本缺陷。
- 其它亮点实验基于自建协作游戏套件(未公开代码,但任务设计细节完整披露),涵盖信息密度、话语连贯性、sycophancy等多维语言分析;发现人类在同等任务成功率下token效率显著更高,且连贯性是关键区分因素;论文呼吁社区关注‘主动私有信息管理’能力,该方向尚无成熟基准;值得深入的方向包括:可解释的协作失败归因、面向私有信息交换的对话结构先验建模、轻量级协作微调范式。
- 1. 'Cooperative Dialogue Systems: A Survey' (ACL 2023); 2. 'Let's Talk: Multi-Agent Communication for Collaborative Reasoning' (NeurIPS 2022); 3. 'The Limits of Language Models in Cooperative Game Playing' (ICLR 2024 Workshop); 4. 'Token Efficiency as a Lens for LLM Evaluation' (EMNLP 2023); 5. 'Private Information in Conversational AI: Beyond Referential Games' (AAAI 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流