AI代理正逐步进入社交场景,需具备社会推理能力以胜任日程协调、交易谈判等任务。SocialReasoning-Bench基准据此设计,聚焦Calendar Coordination和Marketplace Negotiation两大真实场景,从结果(用户获益最大化)与过程(尽职决策行为)双维度评估代理表现。实验表明,当前前沿模型虽能完成任务,却常接受次优方案,未能有效代表用户主张权益;即使通过提示工程强化用户利益导向,其表现仍远低于可信代理应有水平。该基准凸显社会推理能力的短板与提升紧迫性。(200字)
本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢