Limits To (Machine) Learning - 智源社区论文

向作者提问

NEW

简介

机器学习（ML）方法虽然具有高度灵活性，但其对真实数据生成过程的逼近能力从根本上受限于有限的样本量。我们刻画了一个普适的下限——学习极限差距（Limits-to-Learning Gap, LLG），用以衡量模型在样本中的拟合效果与总体基准之间不可避免的差异。因此，要恢复真实的总体R²，就必须根据这一下限对观测到的预测性能进行校正。利用一系列广泛的变量（包括超额收益、收益率、信用利差和估值比率），我们发现所隐含的LLG值相当大。这表明，标准的机器学习方法可能会显著低估金融数据中实际存在的可预测性。此外，我们还基于LLG对经典的Hansen和Jagannathan（1991）界限进行了改进，分析了其在一般均衡框架下参数学习中的含义，并证明LLG为过度波动性的产生提供了一种自然的机制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决机器学习在金融数据预测中由于样本有限导致的模型性能低估问题，即实证拟合优度（如R²）系统性低于真实总体可预测性的现象。这一问题揭示了标准ML方法可能严重低估金融变量的真实预测能力，尽管并非全新问题，但其系统量化和理论刻画具有重要现实意义。
关键思路

提出一个普适的‘学习极限差距’（Limits-to-Learning Gap, LLG），作为衡量有限样本下模型无法避免的经验表现与真实总体基准之间差异的下界。通过校正LLG来恢复真实的总体R²，并将该框架扩展至改进Hansen-Jagannathan界限、解释参数学习偏差以及生成过度波动现象，为理解金融预测中的根本限制提供了新视角。
其它亮点

使用涵盖超额收益、利率、信用利差和估值比率等多个金融变量的大规模数据集进行实证分析，发现LLG普遍存在且幅度显著；推导出LLG修正后的Hansen-Jagannathan边界；探讨其在一般均衡模型中对参数学习的影响，并证明LLG可自然解释资产价格的过度波动。实验基于经典金融时间序列设计，强调理论推导与经济含义，目前未提及开源代码。值得深入的方向包括跨市场LLG比较、动态LLG建模及在深度学习中的应用。
相关研究

1. Hansen, L.P. and Jagannathan, R. (1991). Implications of Security Market Data for Models of Dynamic Economies 2. Cochrane, J.H. (2008). The Dog That Did Not Bark: A Defense of Return Predictability 3. Gu, S., Kelly, B., and Xiu, D. (2020). Empirical Asset Pricing via Machine Learning 4. Frederiksen, A., Hansen, L.P., and Scheinkman, J.A. (2022). Misspecification and the Limits of Learning 5. Chen, L. and Yu, Y. (2023). Overfitting and Forecast Evaluation in Financial Markets

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问