Applications of Entropy in Data Analysis and Machine Learning: A Review

Entropy 26(12), 1126 (2024)
2025年03月04日
  • 简介
    自19世纪热力学中起源以来,熵的概念也渗透到了物理学和数学的其他领域,例如经典和量子统计力学、信息论、概率论、遍历理论以及动力系统理论。具体来说,我们指的是经典的熵:玻尔兹曼-吉布斯熵、冯·诺依曼熵、香农熵、柯尔莫哥洛夫-辛钦熵和拓扑熵。除了它们共同的名字在历史上有其合理性(我们在本文中简要描述)之外,这些经典熵的另一个共同点是它们在过去和现在在其各自领域及其以外的理论和应用中所发挥的重要作用。因此,随着时间的推移,提出了许多其他形式的广义熵概念,其中大多数是为了特定目的而量身定制的。按照当前的用法,我们将所有这些熵,无论是经典的还是新的,统称为熵。确切地说,本文综述的主题是它们在数据分析和机器学习中的应用。选择这些特定应用的原因在于,熵非常适合表征由有限状态过程或符号化信号生成的概率质量分布。因此,我们将专注于定义为概率质量分布上的正泛函的熵,并提供一个可以追溯到香农和欣钦的公理化特征。鉴于文献中存在大量的熵,我们选择了一组具有代表性的熵,包括经典熵。本文综述总结的应用充分展示了熵在数据分析和机器学习中的强大功能和灵活性。
  • 图表
  • 解决问题
    该论文试图探讨和总结熵的概念及其在数据科学与机器学习中的应用。这不是一个全新的问题,但该文旨在提供一个全面的视角,涵盖从经典到现代的各种熵定义,并展示它们在不同领域的应用。
  • 关键思路
    关键思路在于将各种类型的熵(如Boltzmann-Gibbs熵、von Neumann熵、Shannon熵等)统一起来,强调它们在概率分布特性描述中的共同作用。相比现有研究,本文的独特之处在于它不仅回顾了经典熵的应用,还探索了新提出的熵形式在数据分析和机器学习中的潜力。
  • 其它亮点
    论文的亮点包括对多种熵的详细对比分析,以及这些熵如何用于表征由有限状态过程或符号信号生成的概率质量分布。此外,文章还提供了基于Shannon和Khinchin公理化框架的熵定义,并讨论了其在实际应用中的表现。值得注意的是,虽然文中没有提及具体实验设计、使用数据集或开源代码,但它为未来的研究指明了方向,特别是关于开发更适合特定任务的新熵度量。
  • 相关研究
    近年来,在这一领域内有许多相关研究,例如: 1. 'A Review of Entropy-Based Metrics for Anomaly Detection' - 探讨了熵在异常检测中的应用。 2. 'Entropy Measures in Machine Learning: A Comprehensive Survey' - 提供了一个更广泛的熵测度综述。 3. 'Generalized Entropies and the Transformation Group of Superstatistics' - 研究了广义熵及其在超统计中的变换群。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论