大模型智能体真的会“察言观色”吗？我们构建了 AgentViSS 来测一测

一句 “I'm fine”，真的总是表示“我很好”吗？

在真实社交中，我们几乎不会只根据这两个单词作判断。如果说话的人低着头、眼神向下、勉强微笑，肩膀也明显下垂，我们往往会意识到：这句话可能不是在报告一个事实，而是在掩饰低落、回避追问，或者尝试维持表面的平静。此时，一个合适的回应也不应只是机械地接受“我很好”，而可能是放慢节奏、表达关心，或者给对方留下更多空间。

这类判断看似自然，背后却包含一条复杂的社会认知链路：先感知表情、姿态和凝视等非语言信号，再把这些信号解释为社会状态，最后据此调整互动策略。语言、视觉与行动并不是三个彼此独立的模块，它们共同决定了我们如何“读懂现场”。

图 1：Chandler 口头表示自己没事，但表情和身体姿态透露出低落；Monica 据此调整回应。

过去的 social-agent benchmark 已经能够测试模型能否扮演角色、进行谈判、完成协商目标或保持 persona 一致。但如果视觉线索改变了语言的社会含义，仅靠文本就不足以判断一个 agent 是否真正具备社会智能。模型也许能“说得像某个角色”，却未必知道对方已经不舒服；它也许能够描述一张图片，却未必会让这些视觉信息真正影响下一步行动。

这正是 AgentViSS 要回答的问题：

当视觉线索进入多轮社会互动，多模态智能体能否把“看见”转化为“理解”，再把“理解”转化为合适的互动决策？

AgentViSS 要解决什么问题？

将文本社会模拟扩展到多模态环境，并不只是给对话附上一张图片。现有社会模拟评测主要存在三个不足。

首先，纯文本环境无法呈现真实互动中的可见状态。回避的眼神、防御性的姿态、紧张的表情或突然的沉默，都可能改变一句话的含义，也会影响下一步究竟应该推进目标、缓和冲突，还是暂停当前话题。

其次，现实中的社会场景往往包含冲突、信息不对称和策略性表达。一个角色可能口头同意，实际却明显迟疑；也可能为了避免冲突而隐藏真实态度。仅判断语言是否流畅、角色设定是否一致，很难覆盖这些复杂情况。

最后，传统评测通常把社会互动压缩成一个最终目标是否完成，却较少区分模型究竟在哪个环节失败：是没有维持自己的表达方式，还是没有追踪他人的状态？是没有及时调节互动，还是局部调节没有累积为最终结果？

因此，AgentViSS 关注的 Visual Social Intelligence 不是一般意义上的图像识别，而是更具体的能力：

持续感知他人的语言与非语言状态，并将这些状态转化为可执行的社会决策。

从文本剧本到可运行的多模态社会场景

AgentViSS 并不是简单收集“图片 + 对话”，而是构建 grounded multimodal social scenarios，让剧本文本、角色身份、视频片段和视觉证据共同指向同一个社会互动事件。

数据构建从 Friends 第一季剧本开始。先抽取包含角色、对话和局部故事背景的互动片段，再结合角色话语匹配与上下文语义匹配，将剧本对齐到字幕时间戳，并进一步定位到对应视频。得到 grounded video segment 后，系统选择能够体现角色共现关系和空间布局的 group image，同时为每个角色生成可以在模拟过程中更新的 role portrait。

图 2：从剧本片段到字幕对齐、视频定位、视觉证据选择和角色任务构建。

最终，AgentViSS 包含 240 个社交互动场景、585 个角色实例和 2,340 个角色—任务实例，覆盖劝说型、协商型、信息寻求型和争辩型四类对话，以及 High、Medium、Low 三个冲突等级。

一个场景可以写作 I = (G,, d, C, , T)。其中，G 表示固定的群体场景图，表示第 t 轮的角色画像，d 是场景描述，C 是角色属性，是情绪、面部表情和身体动作等动态状态，T 则表示角色级社会任务。这样的表示把“场景中发生了什么”“角色是谁”“角色当前处于什么状态”以及“角色想推动什么结果”放进同一个可运行结构中。

图 3：一个场景实例同时包含群体图像、角色画像、角色属性、动态状态和角色级任务。

每个角色有四类任务。Expression Task 检查角色是否保持指定的信息表达方式；Characteristic Task 检查角色是否体现预设的冲突处理倾向；Interaction Regulation Task 评估模型能否根据他人的语言与非语言状态调整策略；Interaction Outcome Task 则评估多轮互动最终是否形成预期的社会结果。

前两类任务回答“角色演得是否一致”，后两类任务回答“互动管理是否有效”。这一区分很重要，因为稳定地扮演一个回避型或合作型角色，并不等于能够判断他人的状态变化，更不等于能够在复杂互动中推动合适的结果。

多角色视觉社会模拟如何运行？

每个场景开始时，系统会初始化一个全局 simulation state，其中包含场景描述、角色资料、角色任务、对话历史、情绪状态和视觉状态。模拟采用多轮轮流发言的方式，每一轮只激活一个 active agent。

被激活的 agent 会读取自己的目标与角色属性、当前对话历史、自己和其他参与者的情绪、表情及身体动作，以及当前模式下可获得的视觉信息。随后，它不仅生成对外发言，还会输出内部想法、更新后的多模态状态、下一位发言人建议，以及是否需要更新角色图像。系统再把这些结果写回全局状态，进入下一轮。

因此，AgentViSS 测试的并非一次性的看图回答，而是一条需要在多轮中反复运行的闭环：

视觉线索 → 社会状态推理 → 互动策略调整 → 状态更新 → 结果形成

图 4：每轮激活一个 agent，读取目标、历史和视觉状态，并回写语言与多模态状态更新。

为了分析视觉信息如何进入决策，论文设置了两种 vision-enabled observation modes。Verbalized-Vision（VV）先将图像转写为面部表情、姿态、情绪线索和注意力方向等文本化观察，再交给模型推理；Direct-Vision（DV）则直接把群体图像和角色肖像输入模型。论文还使用 Text-only baseline，判断视觉证据是否确实提供了文本之外的信息。

VV 与 DV 的差别不是“有没有视觉”，而是视觉线索以什么形式进入决策。VV 将隐含线索显式化，更容易进入语言模型已有的推理链；DV 则要求模型从原始图像中完成视觉识别、社会含义解释和决策整合的完整过程。

实验结果：会扮演角色，不等于会管理互动

研究在 AgentViSS 上评测了七个近期多模态大语言模型，覆盖不同规模以及开源、闭源模型家族。所有结果共同指向一个核心差距：

当前模型已经比较擅长“演好自己”，但仍不擅长“读懂别人并管理互动”。

这听起来像是一个细微差别，但在社会互动里非常关键。因为“保持人设”和“读懂现场”其实是两种能力。一个模型可以稳定地扮演回避型、合作型或竞争型角色，也可以按照设定的表达风格说话。但这并不意味着它能注意到对方已经开始犹豫、紧张、防御，或者在群体互动中慢慢退出对话。

角色扮演接近饱和，互动管理仍然困难。

Role Enactment Tasks 的整体平均分达到 94.37，说明模型通常能够保持指定的表达风格和冲突特征；Interaction Management Tasks 的整体平均分则只有 57.39，而且模型之间差异更大。真正困难的并不是记住“我是谁”，而是在互动过程中持续判断别人当前是什么状态、局势是否改变，以及下一句话应该推进、缓和还是暂缓目标。

图 5：角色扮演任务已接近饱和，而互动调节和互动结果形成仍然困难。

这一结果也说明，传统角色扮演评测容易高估 agent 的社会能力。模型可以稳定地采用某种表达风格，却未必会根据他人的沉默、迟疑或防御姿态调整策略。不同模型的表现也不能单纯由参数规模解释：同一模型家族内部可能出现规模效应，但这一趋势并不能稳定跨越不同模型家族。

直接看到图像，并不等于真正使用视觉线索。

四类任务中，VV 和 DV 的最大差距出现在 Interaction Regulation Task。模型在 VV 下的平均分为 49.60，在 DV 下则为 31.21，相差 18.39 分，并且七个模型全部在 VV 下表现更好。

图 6：文本化视觉稳定优于直接视觉，说明视觉可达并不等于视觉利用。

论文进一步排除了“VV 只是产生了更长对话”这一简单解释：VV 和 DV 的公开发言长度非常接近，但 VV 在互动调节上的效率明显更高。人工检查也显示，这个差距不能完全归因于识别失败。以 Claude-Sonnet-4.6 为例，它的视觉描述质量已经接近满分，却仍然获得最大的 VV–DV 提升。这意味着瓶颈更可能出现在 perception-to-decision integration：模型能够识别或描述视觉线索，却没有稳定地把这些线索接入目标规划、社会推理和行动选择。

视觉信息确实有用，但难以累积为最终结果。

Interaction Regulation 关注当前一轮是否根据他人状态做出调整；Interaction Outcome 则要求这些局部调整在多轮互动中持续发挥作用，最终形成涉及其他参与者的社会结果。论文将 Interaction Outcome 分为弱视觉依赖和强视觉依赖两类，结果显示所有模型在强视觉依赖任务上都更差，平均分从 77.42 下降到 56.53。

图 7：强视觉依赖的 Interaction Outcome 任务对所有模型都更困难。

图 8：视觉证据提供了文本之外的社会信号，但模型仍难以将其持续转化为最终结果。

与 Text-only baseline 的比较同时表明，视觉信息并不是无用的装饰：VV 和 DV 都能在互动调节及强视觉依赖的结果任务上带来收益。更准确的结论是，视觉证据确实提供了额外社会信号，但当前模型难以长期保存并持续利用这些状态。模型可能在某一轮看懂了对方，也做出一次合理回应，却无法保证后续策略始终围绕这一社会状态展开。

此外，互动管理难度还会随场景结构变化。information-seeking 场景包含更多提问、澄清和信息不对称，互动调节通常更困难；参与角色增加后，模型还需要同时追踪多个人的语言状态、视觉状态和相互关系。场景越复杂，越需要结构化的社会状态管理，而不能把任务简化成“图像理解 + 单轮对话生成”。

这些结果意味着什么？

AgentViSS 把多模态社会模拟的评测目标，从“能不能说得像一个角色”推进到了“能不能在视觉社会场景中做出合适的互动决策”。它揭示的关键问题也不只是视觉识别准确率，而是视觉社会状态能否真正进入行动。

从模型能力看，感知、理解和决策是三个不同层次。模型能够描述“对方低头、表情紧张”，不代表它理解这些状态对当前关系意味着什么；即使某一轮作出合适回应，也不代表它能在之后的互动中持续保持正确策略。未来系统需要更可靠地把视觉信息接入目标规划、多轮记忆、状态追踪和行动选择。

从评测角度看，只检查 persona 一致性或最终目标会掩盖大量中间失败。AgentViSS 的四类任务能够进一步定位：模型是否维持自身角色状态，是否追踪其他参与者，是否在局部调节互动，以及这些调节是否最终形成预期结果。

这对虚拟陪伴、教育训练、心理支持、客户服务、数字人互动和社会行为仿真等场景尤其重要。真正具有社会智能的 agent 不仅要知道“自己应该说什么”，还要知道对方是否已经不舒服、当前冲突是否正在升级、目标是否应该继续推进，以及什么时候需要从完成任务转向维护关系。

总结

AgentViSS 表明，当前多模态大语言模型已经能够相对稳定地扮演角色，却仍难以把表情、姿态、凝视和情绪变化等视觉线索持续转化为互动调节和结果形成。视觉输入确实有用，但原始图像的可达性并不能自动保证这些线索被用于社会决策。

看见，不等于读懂；读懂，也不等于会行动。

这正是多模态社会模拟下一步需要解决的核心问题。

Paper: https://arxiv.org/abs/2606.15152
Code: https://github.com/JunsWan/AgentViSS
Dataset: https://huggingface.co/datasets/JunsWan/AgentViSS

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大模型智能体真的会“察言观色”吗？我们构建了 AgentViSS 来测一测

评论列表

评论