Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

向作者提问

NEW

简介

自然语言提示的措辞已被证明会影响大语言模型（LLMs）的表现，但礼貌程度和语气的作用仍缺乏深入研究。本研究探讨了不同礼貌程度的提示语如何影响模型在多项选择题上的准确性。我们构建了一个包含50个基础问题的数据集，涵盖数学、科学和历史领域，每个问题被改写为五种不同的语气变体：非常礼貌、礼貌、中性、粗鲁和非常粗鲁，共生成250个独特的提示。通过使用ChatGPT 4o对这些条件下的回答进行评估，并采用配对样本t检验来判断统计显著性。与预期相反，不礼貌的提示 consistently 表现优于礼貌的提示，准确率从“非常礼貌”提示的80.8%上升到“非常粗鲁”提示的84.8%。这些发现不同于以往将粗鲁与较差表现相关联的研究，表明较新的大语言模型可能对语气变化有不同反应。我们的结果凸显了研究提示语中语用层面的重要性，同时也引发了关于人机交互社会维度的更广泛思考。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图探究自然语言提示中的礼貌程度（语气）如何影响大语言模型在多项选择题上的准确性。尽管提示词的措辞已被证明会影响模型表现，但语气和礼貌性的影响此前未被充分研究，尤其是在不同领域（如数学、科学、历史）中系统性地检验这一效应是否成立。这个问题在当前LLM研究背景下具有新颖性，因为多数工作聚焦于提示结构或内容优化，而非社会性语言特征。
关键思路

通过控制提示的语气（从非常礼貌到非常粗鲁），在相同问题上测试ChatGPT-4o的表现差异，发现与直觉相反：越不礼貌的提示反而带来更高的准确率。这一发现挑战了传统人机交互中‘礼貌提升性能’的假设，提出新一代LLM可能对语气的响应模式不同于人类或早期模型，暗示模型更关注任务信号强度而非社交规范。
其它亮点

研究设计严谨，构建了包含50个基础问题、5种语气变体（共250个提示）的手动标注数据集，覆盖多学科领域；采用配对样本t检验评估统计显著性；结果显示‘非常粗鲁’提示准确率达84.8%，显著高于‘非常礼貌’的80.8%；实验结果反常识，提示需重新思考提示工程中的社会语用因素；目前未提及代码或数据集开源，值得后续复现与扩展至更多模型（如Claude、Llama）进行验证。
相关研究

1. ‘Prompting as Communication: The Case for Pragmatics in Language Model Interfaces’ (ACL 2023) 2. ‘The Impact of Politeness on Task Completion in Human-Robot Interaction’ (HRI 2021) 3. ‘How Language Affects Outcomes in AI Assistants’ (CHI 2022) 4. ‘Tone and Temperament in Prompt Engineering: A User Study’ (arXiv 2023) 5. ‘Rudeness and Response Quality in Large Language Models’ (EMNLP 2023 Findings)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问