Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways

2024年06月17日
  • 简介
    手动为计算社会科学任务注释数据可能成本高昂、耗时长且情感消耗大。虽然最近的工作表明,LLM可以在零-shot情况下执行此类注释任务,但很少有人知道提示设计如何影响LLM的遵从和准确性。我们进行了一项大规模的多提示实验,测试了模型选择(ChatGPT、PaLM2和Falcon7b)和提示设计特征(定义包含、输出类型、解释和提示长度)对LLM在四个CSS任务(有毒性、情感、谣言立场和新闻框架)中生成注释的遵从和准确性的影响。我们的结果表明,LLM的遵从和准确性高度依赖于提示。例如,提示数字分数而不是标签会降低所有LLM的遵从和准确性。总体而言,最佳提示设置取决于任务,微小的提示更改可能会导致生成标签的分布发生很大变化。通过显示提示设计如何显着影响LLM生成注释的质量和分布,本研究既是一个警告,也是一个实用指南,供研究人员和实践者参考。
  • 图表
  • 解决问题
    本论文旨在研究语言模型的prompt设计对于LLM生成注释的准确性和符合度的影响,以及探究不同模型和prompt设计特征对于四个CSS任务(毒性、情感、谣言立场和新闻框架)的影响。
  • 关键思路
    通过大规模的多prompt实验,本论文发现LLM的符合度和准确性高度依赖于prompt设计,不同任务的最佳prompt设置不同,而且微小的prompt变化也会导致生成标签分布的巨大变化。
  • 其它亮点
    本论文的实验设计包括多个模型和prompt设计特征的对比,研究了四个CSS任务,展示了prompt设计对于LLM生成注释的质量和分布的显著影响。值得关注的是,本论文的研究结果不仅提醒了研究者和从业者注意prompt设计的重要性,也为他们提供了实用的指导。
  • 相关研究
    最近的相关研究主要集中在LLM生成注释的零样本学习上,而本论文则更加关注prompt设计对于LLM注释任务的影响。相关研究包括“Zero-Shot Learning for Text Classification”和“Language Models as Few-Shot Learners”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论