Automating the Information Extraction from Semi-Structured Interview Transcripts

2024年03月07日
  • 简介
    本文探讨了一种自动化系统的开发和应用,旨在从半结构化访谈文本中提取信息。传统的定性分析方法(例如编码)需要大量的人力,因此存在着对可以促进分析过程的工具的重大需求。我们的研究调查了各种主题建模技术,并得出结论,即用BERT嵌入和HDBSCAN聚类的组合模型最适合分析访谈文本。我们提供了一个用户友好的软件原型,使研究人员(包括那些没有编程技能的人)能够高效地处理和可视化访谈数据的主题结构。这个工具不仅可以促进定性分析的初步阶段,而且还提供了揭示主题之间相互关联的见解,从而增强了定性分析的深度。
  • 图表
  • 解决问题
    本论文旨在开发和应用一种自动化系统,用于从半结构化面试文本中提取信息,以解决传统的定性分析方法,如编码,的劳动密集型问题。
  • 关键思路
    本文提出了一种结合BERT嵌入和HDBSCAN聚类的模型,以分析面试文本,并提供了一个用户友好的软件原型,使研究人员能够高效地处理和可视化面试数据的主题结构。
  • 其它亮点
    本文的亮点包括使用BERT嵌入和HDBSCAN聚类的结合模型,以及提供用户友好的软件原型。实验使用了面试数据集,并开源了代码。这个工具不仅可以促进定性分析的初始阶段,还可以提供主题之间相互关联的见解,从而增强定性分析的深度。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:“自然语言处理技术在定性研究中的应用”和“基于机器学习的定性研究方法”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论