ConvApparel: Measuring and bridging the realism gap in user simulators

ConvApparel是一个新的人机对话数据集及综合评估框架，旨在量化基于大语言模型（LLM）的用户模拟器的“真实感差距”，并提升对话智能体的鲁棒性训练。当前对话AI虽能处理多轮复杂任务（如主动澄清、辅助），但在长交互中易遗忘约束或生成无关响应。依赖真人测试成本高、难扩展，因此研究转向LLM驱动的用户模拟器。然而，现有模拟器仍存在显著真实感缺陷，如过度耐心、行为失真等，限制其作为可靠训练与评估工具的有效性。ConvApparel通过真实服装购物场景对话数据和细粒度评估指标，系统性诊断并推动模拟器向人类行为对齐。

本专栏通过快照技术转载，仅保留核心内容