Automating the Information Extraction from Semi-Structured Interview Transcripts

简介

本文探讨了一种自动化系统的开发和应用，旨在从半结构化访谈文本中提取信息。传统的定性分析方法（例如编码）需要大量的人力，因此存在着对可以促进分析过程的工具的重大需求。我们的研究调查了各种主题建模技术，并得出结论，即用BERT嵌入和HDBSCAN聚类的组合模型最适合分析访谈文本。我们提供了一个用户友好的软件原型，使研究人员（包括那些没有编程技能的人）能够高效地处理和可视化访谈数据的主题结构。这个工具不仅可以促进定性分析的初步阶段，而且还提供了揭示主题之间相互关联的见解，从而增强了定性分析的深度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在开发和应用一种自动化系统，用于从半结构化面试文本中提取信息，以解决传统的定性分析方法，如编码，的劳动密集型问题。
关键思路

本文提出了一种结合BERT嵌入和HDBSCAN聚类的模型，以分析面试文本，并提供了一个用户友好的软件原型，使研究人员能够高效地处理和可视化面试数据的主题结构。
其它亮点

本文的亮点包括使用BERT嵌入和HDBSCAN聚类的结合模型，以及提供用户友好的软件原型。实验使用了面试数据集，并开源了代码。这个工具不仅可以促进定性分析的初始阶段，还可以提供主题之间相互关联的见解，从而增强定性分析的深度。
相关研究

最近在这个领域中，还有一些相关的研究，例如：“自然语言处理技术在定性研究中的应用”和“基于机器学习的定性研究方法”。

Automating the Information Extraction from Semi-Structured Interview Transcripts

提问交流

提问交流