Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus

2024年03月29日
  • 简介
    短文本在实时新闻、社交网络评论等方面无处不在。传统的文本表示方法已成功应用于中等大小的自包含文档。然而,由于使用记忆技巧等原因,短文本中的信息通常是不充分的,这使它们难以分类。因此,必须利用特定领域的特殊性质。在本文中,我们描述了一种新颖的系统,该系统将自然语言处理技术与机器学习算法相结合,以对个人财务管理中的银行交易描述进行分类,这在文献中以前没有考虑过。我们在带有真实客户交易的标记数据集上训练和测试了该系统,该数据集将根据请求提供给其他研究人员。受垃圾邮件检测中现有解决方案的启发,我们还提出了一种短文本相似性检测器,以基于Jaccard距离减少训练集大小。将此检测器与SVM结合的两阶段分类器的实验结果表明,在考虑复杂性和计算时间的情况下,与替代方法相比,具有较高的准确性。最后,我们提供了一个个人财务应用程序CoinScrap的使用案例,该应用程序可在Google Play和App Store上获得。
  • 图表
  • 解决问题
    本论文试图解决银行交易描述的分类问题,这是一个新问题。
  • 关键思路
    本论文提出了一种将自然语言处理技术与机器学习算法相结合的系统来解决银行交易描述分类问题,同时还提出了一种基于Jaccard距离的短文本相似度检测器来减少训练集大小。
  • 其它亮点
    论文使用真实客户交易数据集进行了训练和测试,并提供了数据集以供其他研究人员使用。实验结果表明,本文提出的两阶段分类器具有高准确性,并且相对于其他方法具有更低的复杂性和计算时间。本文还介绍了一个名为CoinScrap的个人财务应用程序,可在Google Play和App Store上使用。
  • 相关研究
    最近的相关研究主要集中在短文本分类和垃圾邮件检测领域,例如“基于深度学习的短文本分类方法”和“基于机器学习的垃圾邮件过滤算法”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论