SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset

简介

本文介绍了将自动语音识别（ASR）技术应用于足球领域的机会。具体来说，使用ASR提取音频评论可为比赛事件提供有价值的见解，同时打开了自动精华片段生成等多个下游应用的大门。本文提出了SoccerNet-Echoes，这是SoccerNet数据集的一个增强版本，其中包含了从足球比赛广播中自动生成的音频评论转录，使用ASR从游戏音频中提取出丰富的文本信息，增强了视频内容。这些文本评论使用Whisper模型生成，并使用Google翻译进行翻译，扩展了SoccerNet数据集在增强动作定位、自动生成字幕和比赛总结等多个领域的用途。通过将文本数据与视觉和听觉内容相结合，SoccerNet-Echoes旨在作为一种全面资源，用于开发专门捕捉足球比赛动态的算法。我们详细介绍了该数据集的策划方法和ASR集成方法。我们还强调了多模态方法在体育分析中的影响，以及丰富的数据集如何支持多个应用程序，从而扩大了体育分析领域的研究和开发范围。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过自动语音识别技术在足球比赛中提取音频评论，为运动分析提供有价值的洞见，并打开自动突出显示生成等多种下游应用的大门。
关键思路

使用自动语音识别技术增强SoccerNet数据集，生成足球比赛广播的自动转录，将文本信息与视频内容结合，提供丰富的分析数据，支持多种应用，如增强的动作定位、自动生成字幕和比赛总结等。
其它亮点

论文详细介绍了数据集的策划方法和自动语音识别的集成方法，重点探讨了多模态方法在运动分析中的影响，以及如何支持各种应用程序，从而扩大了运动分析领域的研究和开发范围。
相关研究

近期的相关研究包括：Multi-modal Machine Learning: A Survey and Taxonomy和Multimodal Learning and Reasoning for Visual Question Answering。

SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset

提问交流

提问交流