- 简介新闻报道的格局不断演变,世界各地的信息量不断增加。在这个庞大的数据存储库中,自动事件检测对于监测、识别和分类各种平台上重大的新闻事件至关重要。本文提出了一种事件检测框架,利用大型语言模型(LLMs)与聚类分析相结合,从全球事件、语言和音调数据库(GDELT)中检测新闻事件。该框架通过预事件检测任务(关键词提取和文本嵌入)和后事件检测任务(事件摘要和主题标签)增强了事件聚类。我们还评估了各种文本嵌入对聚类结果质量的影响,确保了强大的新闻分类。此外,我们引入了一种新的聚类稳定性评估指数(CSAI),以评估聚类结果的有效性和稳健性。CSAI利用潜在特征向量提供了一种衡量聚类质量的新方法。我们的实验表明,将LLM嵌入与聚类算法相结合可以产生最佳结果,表现出更大的CSAI得分稳健性。此外,后事件检测任务生成有意义的见解,有助于有效解释事件聚类结果。总的来说,我们的实验结果表明,所提出的框架提供了有价值的见解,可以提高新闻报道的准确性和深度。
- 图表
- 解决问题本论文旨在通过结合大型语言模型和聚类分析来自动检测全球事件,提高新闻分类的准确性和深度。
- 关键思路论文提出了一种基于大型语言模型和聚类算法的事件检测框架,通过关键词提取、文本嵌入、事件摘要和主题标签等前后置任务来增强事件聚类,同时使用新的聚类稳定性评估指标来评估聚类结果的有效性和鲁棒性。
- 其它亮点实验结果表明,将大型语言模型嵌入到聚类算法中可以获得更好的聚类效果,同时后置任务可以生成有意义的洞察力,有助于解释事件聚类结果。论文还介绍了一种新的聚类稳定性评估指标,可以提供一种新的衡量聚类质量的方法。
- 近期的相关研究包括《Event Detection from News Articles using Distributed Representations and Clustering》、《Deep Clustering for Unsupervised Learning of Visual Features》等。
沙发等你来抢
去评论
评论
沙发等你来抢