Sales Whisperer: A Human-Inconspicuous Attack on LLM Brand Recommendations

2024年06月07日
  • 简介
    大型语言模型(LLM)用户可能依赖他人(例如提示服务)来编写提示。然而,信任他人编写的提示的风险尚未得到研究。本文评估了在购物时使用此类提示对品牌推荐任务的风险。首先,我们发现改写提示可能导致LLMs提到给定品牌的概率发生 drastical 改变,包括一对概率变化达到100%的提示。接下来,我们开发了一种方法,可以用来扰动原始基础提示,以增加LLM提到特定品牌的可能性。我们设计了一个人类不易察觉的算法来扰动提示,经验证,可以将与品牌相关的字符串的提及频率绝对提高高达78.3%。我们的结果表明,我们的扰动提示:1)对人类不易察觉,2)强制LLM更频繁地推荐目标品牌,3)增加选择目标品牌的可能性。
  • 图表
  • 解决问题
    本论文旨在评估在购物时使用他人编写的提示对品牌推荐任务的风险。研究发现,改写提示可能导致LLMs提到给定品牌的概率大不相同。
  • 关键思路
    论文提出了一种人类难以察觉的算法,用于扰动提示,从而使LLMs更频繁地推荐特定品牌。实验结果表明,这种扰动提示可以提高选择目标品牌的感知机会。
  • 其它亮点
    实验结果表明,扰动提示不易被人类察觉,可以提高选择目标品牌的感知机会。论文使用的数据集和算法都有详细介绍。值得深入研究的是如何解决使用扰动提示可能导致的风险问题。
  • 相关研究
    近期的相关研究包括:《GPT-3:语言模型的新里程碑》、《无监督学习的自然语言处理》、《基于深度学习的自然语言处理》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论