Evaluating alignment of behavioral dispositions in LLMs

本文提出一种系统性评估框架，将既有测评转化为大规模情境判断测试，用于量化大语言模型（LLM）在社会情境中的行为倾向与人类社会偏好的对齐程度。该框架聚焦“行为倾向”——即影响模型社会性回应的内在倾向性，通过对比模型输出与人类共识，识别可测量的对齐状态及偏差。研究旨在应对LLM日益融入日常生活的现实需求，提升对其行为的理解与可控性，是探索模型对齐的初步但关键步骤，强调以实证方式刻画模型价值取向与人类社会规范的一致性。

本专栏通过快照技术转载，仅保留核心内容