Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus

Benjamin Litterer ,
David Jurgens ,
Dallas Card
2024年11月12日
  • 简介
    播客通过独特的按需模式为庞大的听众群体提供了高度多样化的内容。然而,由于数据有限,对播客生态系统的大型计算分析受到了阻碍。为了填补这一空白,我们介绍了一个包含超过110万条播客文本的大规模数据集,这些文本几乎涵盖了2020年5月和6月通过公共RSS源可获取的所有英语播客。该数据不仅限于文本,还包括37万集节目的音频特征和发言者轮次,以及所有110万集节目的发言者角色推断和其他元数据。利用这些数据,我们还对这一生态系统的内容、结构和响应性进行了基础性研究。我们的数据和分析共同为继续对这一流行且有影响力的媒介进行计算研究打开了大门。
  • 图表
  • 解决问题
    该论文试图通过构建一个大规模的数据集来填补对播客生态系统进行大规模计算分析的空白。这是一个相对新颖的问题,因为此前由于数据有限,对播客内容的系统性研究较为缺乏。
  • 关键思路
    论文的关键思路是创建一个包含超过110万份播客转录文本的大规模数据集,并且对于其中37万集还提供了音频特征和说话人角色等额外信息。这一数据集不仅为研究播客的内容、结构和互动模式提供了基础,而且也为未来的研究者提供了一个强大的工具。
  • 其它亮点
    论文的一个重要亮点是其数据集的全面性和多样性,涵盖了几乎所有的英语播客节目。此外,作者进行了初步的基础性研究,探索了播客生态系统的多个方面。该研究使用了公开的RSS源获取数据,并且部分数据包括了音频特征和说话人角色标注。虽然文中没有明确提到代码开源,但如此大规模且详细的数据库本身就是一项重大贡献,为后续研究奠定了坚实的基础。
  • 相关研究
    近年来,关于社交媒体和在线内容的研究越来越多,但针对播客的研究相对较少。一些相关的工作包括《Analyzing User Engagement in Podcasts: A Large-Scale Study》和《Podcast Recommendation Systems: Challenges and Opportunities》。这些研究主要集中在用户参与度分析和推荐系统上,而本论文则更侧重于构建基础数据集并进行初步的生态分析。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论