SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset

2024年05月12日
  • 简介
    本文介绍了将自动语音识别(ASR)技术应用于足球领域的机会。具体来说,使用ASR提取音频评论可为比赛事件提供有价值的见解,同时打开了自动精华片段生成等多个下游应用的大门。本文提出了SoccerNet-Echoes,这是SoccerNet数据集的一个增强版本,其中包含了从足球比赛广播中自动生成的音频评论转录,使用ASR从游戏音频中提取出丰富的文本信息,增强了视频内容。这些文本评论使用Whisper模型生成,并使用Google翻译进行翻译,扩展了SoccerNet数据集在增强动作定位、自动生成字幕和比赛总结等多个领域的用途。通过将文本数据与视觉和听觉内容相结合,SoccerNet-Echoes旨在作为一种全面资源,用于开发专门捕捉足球比赛动态的算法。我们详细介绍了该数据集的策划方法和ASR集成方法。我们还强调了多模态方法在体育分析中的影响,以及丰富的数据集如何支持多个应用程序,从而扩大了体育分析领域的研究和开发范围。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过自动语音识别技术在足球比赛中提取音频评论,为运动分析提供有价值的洞见,并打开自动突出显示生成等多种下游应用的大门。
  • 关键思路
    使用自动语音识别技术增强SoccerNet数据集,生成足球比赛广播的自动转录,将文本信息与视频内容结合,提供丰富的分析数据,支持多种应用,如增强的动作定位、自动生成字幕和比赛总结等。
  • 其它亮点
    论文详细介绍了数据集的策划方法和自动语音识别的集成方法,重点探讨了多模态方法在运动分析中的影响,以及如何支持各种应用程序,从而扩大了运动分析领域的研究和开发范围。
  • 相关研究
    近期的相关研究包括:Multi-modal Machine Learning: A Survey and Taxonomy和Multimodal Learning and Reasoning for Visual Question Answering。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问