SPICA: Interactive Video Content Exploration through Augmented Audio Descriptions for Blind or Low-Vision Viewers

简介

BLV用户通常依赖音频描述（AD）来获取视频内容。然而，传统的静态AD可能会忽略视频中的详细信息，给用户带来较高的心理负担，忽略BLV用户的多样化需求和偏好，并且缺乏沉浸感。为了解决这些挑战，我们介绍了SPICA，这是一个由人工智能驱动的系统，使BLV用户能够与视频内容进行交互式探索。SPICA根据以前的BLV视频消费经验研究，提供了支持帧字幕的时间导航和关键帧内对象的空间探索的新颖交互机制。利用音频-视觉机器学习流程，SPICA通过添加交互性、空间声音效果和单个对象描述来增强现有的AD，而不需要额外的人工注释。通过与14名BLV参与者的用户研究，我们评估了SPICA的可用性和有用性，并探讨了用户与增强AD交互时的行为、偏好和心理模型。
图表
解决问题

SPICA旨在解决盲人或视力低下用户在观看视频时缺乏详细信息、心理负担高、忽略多样化需求和缺乏沉浸感的问题。
关键思路

SPICA是一个AI驱动的系统，通过交互式机制支持时间和空间导航，增强现有的音频描述，添加交互性、空间声音效果和单个物体描述，而无需额外的人工注释。
其它亮点

论文通过14名BLV参与者的用户研究，评估了SPICA的可用性和有用性，并探索了用户与增强型AD交互时的行为、偏好和心理模型。
相关研究

最近的相关研究包括：1.利用深度学习技术生成音频描述；2.开发交互式音频描述系统；3.使用虚拟现实技术增强音频描述。

SPICA: Interactive Video Content Exploration through Augmented Audio Descriptions for Blind or Low-Vision Viewers

评论