Khmer Semantic Search Engine: Digital Information Access and Document Retrieval

2024年06月13日
  • 简介
    搜索引擎过程对于文档内容检索至关重要。对于高棉文档,需要一种工具来提取关键词。尽管每天生成大量的高棉内容,但由于缺乏有效的语义搜索工具,柬埔寨人民很难找到必要的文档。即使是谷歌在高棉内容方面也不能提供高精度的搜索结果。语义搜索引擎通过采用先进的算法来理解各种内容类型,从而提高搜索结果的准确性。随着高棉数字内容(如报告、文章和社交媒体反馈)的增加,增强搜索能力变得至关重要。本研究提出了第一个高棉语义搜索引擎(KSE),旨在改善传统的高棉搜索方法。利用语义匹配技术和正式注释的语义内容,我们的工具从用户查询中提取有意义的关键词,执行精确匹配,并提供最佳匹配的离线文档和在线URL文档。我们提出了两个基于关键词提取和语义搜索匹配的语义搜索框架。此外,我们还开发了数据准备工具,包括文档添加和手动关键词提取。为了评估性能,我们创建了一个基准数据集,并讨论了与搜索和语义搜索相关的问题。我们的研究结果表明,理解搜索术语的语义可以带来更准确的结果。
  • 图表
  • 解决问题
    论文旨在设计第一个高效的柬埔寨语语义搜索引擎,解决柬埔寨语文档内容检索困难的问题,提高搜索准确性。
  • 关键思路
    论文提出了两种基于关键词提取和语义匹配的语义搜索框架,利用语义匹配技术和形式化注释的语义内容从用户查询中提取有意义的关键词,并提供最佳匹配的离线文档和在线URL文档。
  • 其它亮点
    论文开发了数据准备工具,包括文档添加和手动关键词提取,并创建了一个基准数据集来评估性能。实验结果表明,理解搜索术语语义可以导致更准确的结果。
  • 相关研究
    最近的相关研究包括“基于词汇的柬埔寨语信息检索系统”和“柬埔寨语文本分类和聚类的比较研究”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论