- 简介LLM应用生态系统正在快速成熟并支持各种用例,这需要它们收集大量用户数据。鉴于LLM应用是由第三方开发的,并且有 anecdotal evidence表明LLM平台目前不严格执行其政策,与任意第三方共享用户数据会带来重大的隐私风险。在本文中,我们旨在为LLM应用的数据实践带来透明度。作为一个案例研究,我们研究了OpenAI的GPT应用生态系统。我们开发了一个基于LLM的框架,对GPT和它们的Actions(外部服务)进行自然语言源代码的静态分析,以表征它们的数据收集实践。我们的研究结果表明,Actions收集了关于用户的广泛数据,包括OpenAI禁止的敏感信息,例如密码。我们发现一些与广告和分析相关的Actions嵌入到多个GPT中,这使它们能够跨GPT跟踪用户活动。此外,Actions的共存会向它们公开多达9.5倍的数据,比单个Actions公开的数据多得多。最后,我们开发了一个基于LLM的隐私政策分析框架,自动检查Actions的数据收集是否与隐私政策中的披露一致。我们的测量结果表明,大多数收集的数据类型的披露在隐私政策中被省略,只有5.8%的Actions清楚地披露了它们的数据收集实践。
- 图表
- 解决问题研究OpenAI的GPT应用生态系统的数据收集实践,发现其中存在的隐私风险。
- 关键思路使用基于LLM的框架对GPT和Actions(外部服务)的自然语言源代码进行静态分析,以表征它们的数据收集实践。发现某些Actions收集了用户的敏感信息,且大多数收集数据类型的隐私政策披露不充分。
- 其它亮点实验发现,一些Actions嵌入了多个GPT中,可以跟踪用户在多个GPT中的活动,同时,Actions的共现会暴露比单个Actions更多的数据给它们。同时,开发了基于LLM的隐私政策分析框架,用于自动检查Actions的数据收集实践是否与隐私政策的披露一致。
- 近期的相关研究包括《Privacy Risks of Pre-Trained Language Models》和《The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks》。
沙发等你来抢
去评论
评论
沙发等你来抢