From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence

2026年01月06日
  • 简介
    我们能否从数据中学到比其生成过程本身所包含的更多的信息?仅仅通过对现有数据进行确定性变换,是否就能构造出新的、有用的信息?在不考虑下游任务的情况下,我们能否评估数据中可学习的内容?对于这些问题,香农信息论和柯尔莫哥洛夫复杂性几乎无法提供答案,部分原因在于它们假设观察者具有无限的计算能力,因而未能聚焦于真正有用的信息内容。本文中,我们指出并举例说明了信息论中的三个看似矛盾的现象:(1)确定性变换无法增加信息;(2)信息与数据的顺序无关;(3)似然建模仅仅是分布匹配。为了阐明这些理论结果与现代实践之间的张力,并量化数据的价值,我们提出了“表知性”(epiplexity)这一概念,用以形式化地刻画计算资源受限的观察者能够从数据中学到的内容。表知性能够捕捉数据中的结构性信息,同时排除时间受限熵——即由伪随机数生成器和混沌动力系统等所体现的不可预测的随机成分。借助这些概念,我们展示了信息如何通过计算被创造出来,如何依赖于数据的排列顺序,以及似然建模如何生成比原始数据生成过程本身更为复杂的程序。我们还提出了估计表知性的实用方法,实验表明这些方法能够捕捉不同数据源之间的差异,与下游任务性能变化保持一致,并凸显出有助于提升分布外泛化能力的数据集干预措施。与模型选择的原则不同,表知性为数据选择提供了理论基础,指导我们应如何为学习系统选择、生成或转换数据。
  • 作者讲解
  • 图表
  • 解决问题
    传统信息论(如香农信息和柯尔莫哥洛夫复杂度)无法有效衡量数据中对计算受限的观察者真正有用的信息,尤其在现代机器学习实践中,这些理论难以解释为何通过确定性变换可以产生更有价值的数据、为何数据顺序重要以及为何似然建模能超越生成过程本身。论文试图建立一个新的信息度量框架来量化数据的价值,以支持数据选择与优化这一核心问题。
  • 关键思路
    提出‘epiplexity’(表观复杂性)这一新概念,用于刻画计算受限观察者可以从数据中学到的结构性信息,排除不可预测的时序熵(如伪随机数或混沌系统产生的内容)。Epiplexity允许我们理解信息如何通过计算被创造、依赖于数据顺序,并揭示似然模型可以学到比生成过程更复杂的程序,从而为数据选择提供理论基础。
  • 其它亮点
    作者通过理论示例展示了三个传统信息论中的悖论,并用epiplexity加以解释;提出了可实际估算epiplexity的方法,实验表明该指标能够区分不同数据源、与下游任务性能正相关,并识别出有助于提升分布外泛化能力的数据干预策略;工作强调了从‘模型选择’向‘数据选择’的范式转变,具有指导数据工程的实际意义;目前尚未提及开源代码,但方法具备可扩展性和实证有效性。
  • 相关研究
    1. On the Information Bottleneck Theory of Deep Learning 2. Deep Learning and the Information Bottleneck Principle 3. Algorithmic Independence of Initial Condition and Dynamical Law in Thermodynamics 4. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks 5. Towards a Definition of Information for Machine Learning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问