Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs

2024年06月05日
  • 简介
    本文介绍了一种使用大型语言模型(LLMs)嵌入的新型金融数据异常检测方法,检测总账数据中的异常非常重要,以确保财务记录的可信度。金融审计越来越依赖机器学习(ML)算法来识别不规则或潜在的欺诈性日记帐条目,每个条目都由不同数量的交易组成。在机器学习中,特征维度的异构性给数据分析带来了重大复杂性。为了对来自真实世界金融记录的非语义类别数据进行编码,我们测试了3个预训练的通用句子转换器模型。对于下游分类任务,我们实施并评估了5个优化的ML模型,包括逻辑回归、随机森林、梯度提升机、支持向量机和神经网络。我们的实验表明,LLMs为异常检测提供了有价值的信息,因为我们的模型在选择的设置中优于基线,甚至在某些情况下优势很大。这些发现进一步强调了LLMs在增强金融日记帐条目的异常检测方面的有效性,特别是通过解决特征稀疏性。我们讨论了在金融及其他领域使用LLM嵌入进行非语义数据处理的有前途的展望。
  • 图表
  • 解决问题
    本论文旨在使用大型语言模型(LLMs)嵌入来识别财务数据中的异常值,以提高财务记录的可信度。具体而言,论文尝试使用机器学习算法对不同维度的特征进行分析,以识别不规则或潜在欺诈性的账目条目。
  • 关键思路
    论文的关键思路是使用预训练的通用句子转换器模型对来自真实财务记录的非语义类别数据进行编码,以进行下游分类任务。在5种优化的机器学习模型的支持下,作者测试了3个预训练的通用句子转换器模型,包括逻辑回归、随机森林、梯度提升机、支持向量机和神经网络。
  • 其它亮点
    论文的实验结果表明,LLMs对于异常检测具有很大的帮助,因为在特定情况下,我们的模型优于基线模型。该研究还强调了LLMs在增强财务账目条目的异常检测方面的有效性,特别是通过解决特征稀疏性。值得关注的是,该论文提出了使用LLM嵌入非语义数据的有前途的前景。
  • 相关研究
    最近的相关研究包括使用机器学习算法进行财务欺诈检测的研究,如《Financial Fraud Detection using Machine Learning Algorithms: A Comprehensive Review》。还有一些研究关注于使用深度学习算法进行异常检测,如《Deep Learning Based Anomaly Detection: A Comprehensive Survey》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论