Thesis: Document Summarization with applications to Keyword extraction and Image Retrieval

2024年05月20日
  • 简介
    自动摘要是将文本文件缩减为保留原始文件最重要要点的摘要的过程。本文研究两个问题:i)将文本文件摘要为一组关键词/标题,用于图像推荐;ii)生成意见摘要,既包含相关性又包含情感。首先,我们提出了一种方法,通过推荐图像来增强大量现有的纯文本新闻文章。我们使用概率模型和单词相似性启发式方法生成标题并提取关键短语,然后使用排序聚合框架和相关反馈机制对其进行重新排序。我们展示了这种排序聚合和相关反馈通常用于标记文档、文本信息检索的方法也有助于改善图像检索。这些查询被输入到Yahoo搜索引擎中以获取相关图像。我们的方法表现比所有现有基线方法都好。此外,我们提出了一组子模块函数用于意见摘要。意见摘要内置了摘要和情感检测任务。然而,同时检测情感和提取摘要并不容易。这两个任务在压缩需求方面存在冲突,可能会丢掉带有情感的句子,而情感检测的需求可能会带来冗余的句子。然而,我们使用子模块性展示了如何在这两个需求之间取得平衡。我们的函数生成摘要,使得文档情感和摘要情感之间有良好的相关性,并具有良好的ROUGE分数。我们还比较了所提出的子模块函数的性能。
  • 图表
  • 解决问题
    本文研究两个问题:i)将文本文档摘要为关键字/标题,以便进行图像推荐;ii)生成具有相关性和情感的意见摘要。这些问题是否是新问题?
  • 关键思路
    对于第一个问题,作者使用概率模型和词相似性启发式来生成标题和提取关键短语,并使用排名聚合框架和相关反馈机制对其进行重新排名。对于第二个问题,作者提出了一组子模型函数来生成意见摘要,平衡了压缩和情感检测之间的矛盾。这些函数生成的摘要在文档情感和摘要情感之间具有良好的相关性和良好的ROUGE分数。
  • 其它亮点
    本文使用排名聚合框架和相关反馈机制提高图像检索的性能。对于意见摘要,作者提出了一组子模型函数来平衡压缩和情感检测之间的矛盾。作者的方法优于所有现有的基线。本文的实验使用了Yahoo搜索引擎和多个数据集,但未提供开源代码。
  • 相关研究
    近期的相关研究包括:基于深度学习的文本摘要,基于子模型函数的文本摘要,以及基于概率模型的文本摘要。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论