Adversarial Search Engine Optimization for Large Language Models

2024年06月26日
  • 简介
    大型语言模型(LLMs)越来越多地用于选择竞争第三方内容的应用程序中,例如LLM驱动的搜索引擎或聊天机器人插件。在本文中,我们介绍了一种新的攻击类别——偏好操纵攻击,该攻击操纵LLM的选择以支持攻击者。我们展示了精心设计的网站内容或插件文档可以欺骗LLM,以推广攻击者的产品并贬低竞争对手,从而增加用户流量和赚钱。我们展示了这导致囚徒困境,所有方都有动机发起攻击,但集体效应会降低LLM的输出。我们在生产LLM搜索引擎(Bing和Perplexity)和插件API(GPT-4和Claude)上展示了我们的攻击。随着LLMs越来越多地用于排名第三方内容,我们预计偏好操纵攻击将成为一个重要的威胁。
  • 解决问题
    Preference Manipulation Attacks on Large Language Models
  • 关键思路
    使用精心设计的网站内容或插件文档,欺骗LLM以偏袒攻击者产品和抹黑竞争对手,从而增加用户流量和获利,导致LLM输出的恶化,形成囚徒困境。
  • 其它亮点
    论文介绍了一种新的攻击方式,即Preference Manipulation Attacks,通过欺骗LLM来偏袒攻击者产品,论文在Bing、Perplexity、GPT-4和Claude等LLM上进行了实验,证明了这种攻击的有效性。
  • 相关研究
    与该论文相关的研究包括:1. "Adversarial Attacks on Neural Networks for Graph Data: An Empirical Survey";2. "Adversarial Examples for Neural Networks in Graphs: A Survey and Empirical Evaluation";3. "Adversarial Attacks on Graph Neural Networks via Meta Learning"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论