TradeFM: A Generative Foundation Model for Trade-flow and Market Microstructure

向作者提问

NEW

简介

基础模型通过从大规模、异构的数据中学习通用表征，已深刻变革了从自然语言处理到基因组学等多个领域。本文提出TradeFM——一个参数量达5.24亿的生成式Transformer模型，首次将这一范式引入市场微观结构研究，直接从覆盖逾9000只股票的数十亿笔交易事件中进行学习。为实现跨资产泛化能力，我们设计了一套尺度不变的特征体系与一种通用的分词方案，可将异构、多模态的订单流事件序列统一映射为标准化的离散符号序列，从而彻底摆脱对特定资产的校准依赖。TradeFM与一个确定性市场模拟器集成后，其生成的模拟行情轨迹能够准确复现金融收益率的关键经验规律，包括厚尾分布、波动率聚集现象以及收益率序列缺乏自相关性等特征。在定量评估方面，TradeFM的分布误差较复合Hawkes过程基线模型降低了2–3倍；同时，它还能以零样本方式泛化至地理分布外的亚太（APAC）市场，仅出现中等程度的困惑度（perplexity）下降。综上所述，这些结果表明：尺度不变的交易表征能够有效捕捉市场微观结构中具有迁移能力的内在规律，从而为合成数据生成、压力测试以及基于学习的交易智能体研发开辟了全新路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在市场微观结构领域构建一个跨资产、无需资产特定校准的通用基础模型，以从海量异构交易事件中学习可迁移的表征，并生成符合真实市场统计特性的合成交易流。这是一个新兴问题——此前基础模型尚未系统性地应用于市场微观结构建模。
关键思路

提出TradeFM：首个专为市场微观结构设计的524M参数生成式Transformer；核心创新在于 scale-invariant 特征工程（消除价格/量纲依赖）与universal tokenization（将多模态订单流事件统一映射为离散序列），从而实现跨>9000只股票的零样本泛化，彻底摆脱传统模型对单资产参数校准的依赖。
其它亮点

实验基于数十亿真实交易事件（覆盖美股等主流市场）；集成确定性市场模拟器验证生成序列复现三大经典统计事实（厚尾、波动率聚集、无自相关）；定量超越Compound Hawkes基线2–3倍分布误差；零样本迁移到APAC市场仅中度困惑度上升；论文未提代码开源，但强调方法论可扩展至压力测试与学习型交易代理；值得深入的方向包括：1）引入限价单簿动态建模，2）因果干预下的反事实生成，3）与强化学习闭环联合训练。
相关研究

1) 'Order Flow Prediction with Deep Learning' (NeurIPS 2021); 2) 'Hawkes Processes for Financial Modeling' (J. of Financial Econometrics, 2018); 3) 'FinBERT: A Large-Scale Language Model for Financial Text' (ACL 2020); 4) 'Time Series Foundation Models: Are We There Yet?' (ICML 2023 Workshop); 5) 'Generative Microstructure Modeling via Neural Hawkes' (ICLR 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问