Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority

简介

本文报告了一项关于生成式人工智能系统（ChatGPT、Bing Chat和Perplexity）的审计研究，调查了这些新型搜索引擎如何构建回应并建立公共话题的权威性。我们在7天内使用48个真实查询的一组数据收集系统回应，并使用情感分析、归纳编码和来源分类对数据进行了分析。研究结果提供了这些系统回应性质的概述，并提供了基于查询和话题的情感偏见，以及来源上的商业和地理偏见的证据。用于支持论点的来源质量参差不齐，主要依赖于新闻和媒体、商业和数字媒体网站。对于系统用户的影响强调了在做出关于公共利益和个人福祉的决策时需要批判性地审查生成式人工智能系统的输出。
图表
解决问题

审计生成AI系统的响应，以了解它们如何建立公共话题的权威性和构建回应。研究发现了什么？
关键思路

使用情感分析、归纳编码和来源分类，对48个真实查询的系统响应进行了分析，发现了情感偏见和商业/地理偏见，并发现了支持主张的来源质量参差不齐。
其它亮点

实验收集了三个生成AI系统的响应数据，发现了情感和商业/地理偏见，以及来源质量不均衡的问题。
相关研究

最近的相关研究可能包括对生成AI系统响应的其他审计研究，例如“对话系统的伦理问题：生成的AI回应中的偏见和歧视”（The Ethics of Dialogue Systems: Bias and Discrimination in Generative AI Responses）

Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority

评论