OpenAI发布了一个名为GPTBot的网络爬虫,可以索引网站内容,尽管网站所有者可以选择退出。GPTBot在没有任何公告的情况下发布,只是提供了有关如何使用和识别它的新文档。
原文链接:https://platform.openai.com/docs/gptbot
-
OpenAI 推出了 GPTBot,一个用于改进 AI 模型的网络爬虫。
-
GPTBot 会严格过滤掉违反隐私和其他政策的数据源。
-
网站所有者可以选择限制或限制 GPTBot 访问。
GPTBOT
像其他网络爬虫一样,GPTBot从互联网上收集数据。GPTBot寻找可能对其大型语言模型有用的信息。OpenAI据推测使用这些信息来使GPT-4和其他LLM(如传闻中的GPT-5或开源项目G3PO)保持最新状态,并训练它们随着时间的推移表现更好。
这是OpenAI为了比起依赖第三方编制的数据库而对所采用的数据拥有更多控制权的方式。据说它将过滤掉任何需要付费访问或违反其政策和隐私规定的来源。那些允许所有者向GPTBot提供站点访问权限可以帮助改善生成式人工智能性能,但OpenAI还提供给网站管理员禁止GPTBot访问其站点或通过调整robots.txt文件限制其只能访问某些目录。
用户代理(User-Agent)。
GPTBot的用户代理标记是“GPTBot”。其完整的用户代理字符串为:“Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)”。
Robots.txt。您可以使用robots.txt来阻止GPTBot访问您的网站或其中的部分内容。要禁止GPTBot访问您的网站,您可以将GPTBot添加到网站的robots.txt中:
User-agent: GPTBot
Disallow: /
要允许GPTBot仅访问您网站的某些部分,您可以像这样将GPTBot标记添加到网站的robots.txt中:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
“使用GPTBot用户代理程序抓取到的Web页面可能会被用于改进未来模型,并经过过滤以删除需要付费访问、已知收集个人身份信息(PII)或包含违反我们政策文本”的来源,OpenAI 的文档解释道。“允许 GPTBot 访问您的站点可以帮助 AI 模型变得更准确并提高其一般能力和安全性。”
当然,任何关于AI模型训练的讨论都会引发伦理和法律问题,而GPTBot相对透明的性质可能会规避这些问题。然而,是否对网站所有者有任何积极效益还是值得商榷的。虽然允许搜索引擎爬虫可以帮助网站更容易被找到,但LLMs并不一定引用它们的来源或发布链接。因此,一个网站可能使ChatGPT在回答问题方面变得更好,却没有因此获得任何流量。
虽然ChatGPT不会向网站发送流量,但它具有巨大的影响力,网站发布者可能仍希望将他们的信息纳入到AI模型中。此外,正如Perplexity和其他LLMs所展示的那样,链接和引用也是对话式生成式人工智能聊天机器人可能具备的功能,并且在未来可能成为ChatGPT 的一个特性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢