本文提出一种系统性评估框架,将既有测评转化为大规模情境判断测试,用于量化大语言模型(LLM)在社会情境中的行为倾向与人类社会偏好的对齐程度。该框架聚焦“行为倾向”——即影响模型社会性回应的内在倾向性,通过对比模型输出与人类共识,识别可测量的对齐状态及偏差。研究旨在应对LLM日益融入日常生活的现实需求,提升对其行为的理解与可控性,是探索模型对齐的初步但关键步骤,强调以实证方式刻画模型价值取向与人类社会规范的一致性。
本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢