Careless Whisper: Speech-to-Text Hallucination Harms

2024年02月12日
  • 简介
    语音转文本服务的目标是尽可能准确地转录输入的音频。它们在日常生活中扮演着越来越重要的角色,例如在个人语音助手或客户与公司的互动中。我们评估了Open AI的Whisper,这是一种领先于行业竞争对手的最先进的自动语音识别服务,截至2023年。虽然Whisper的许多转录非常准确,但我们发现大约1\%的音频转录包含完整的幻觉短语或句子,这些内容在基础音频中不存在任何形式。我们对Whisper幻觉内容进行了主题分析,发现38\%的幻觉包括明确的伤害,例如延续暴力、编造不准确的关联或暗示虚假的权威。然后,我们通过观察说话能力下降的失语症患者(他们使用语言和声音表达自己的能力降低)和对照组之间幻觉率的差异来研究为什么会出现幻觉。我们发现,幻觉不成比例地发生在说话时间较长的非语音持续时间的个体身上,这是失语症的常见症状。我们呼吁行业从业者改善Whisper中基于语言模型的幻觉,并提高意识,以避免语音到文本模型在下游应用中放大潜在偏见。
  • 解决问题
    评估Open AI的Whisper语音识别服务的准确性和存在的幻听问题,探究幻听的原因和影响,并呼吁业界从语言模型层面上改善这个问题。
  • 关键思路
    通过对Whisper的幻听内容进行主题分析,发现其中38%包含明显的伤害,探究幻听出现的原因,发现与aphasia患者有关,即使用非语音时间较长的人更容易出现幻听,呼吁业界改善这个问题。
  • 其它亮点
    论文评估了Open AI的Whisper语音识别服务的准确性,发现其中约1%的音频转录存在幻听问题,而这些幻听内容中有38%包含明显的伤害。通过对幻听出现的原因进行研究,发现与aphasia患者有关,即使用非语音时间较长的人更容易出现幻听。呼吁业界改善这个问题。
  • 相关研究
    近期相关研究包括《A Survey on Speech Emotion Recognition: Features, Classification Schemes, and Databases》、《Deep Learning for Emotion Recognition on Small Datasets Using Transfer Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论