ConvApparel是一个新的人机对话数据集及综合评估框架,旨在量化基于大语言模型(LLM)的用户模拟器的“真实感差距”,并提升对话智能体的鲁棒性训练。当前对话AI虽能处理多轮复杂任务(如主动澄清、辅助),但在长交互中易遗忘约束或生成无关响应。依赖真人测试成本高、难扩展,因此研究转向LLM驱动的用户模拟器。然而,现有模拟器仍存在显著真实感缺陷,如过度耐心、行为失真等,限制其作为可靠训练与评估工具的有效性。ConvApparel通过真实服装购物场景对话数据和细粒度评估指标,系统性诊断并推动模拟器向人类行为对齐。
本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢