AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

2025年12月01日
  • 简介
    大型语言模型(LLMs)已展现出作为自主智能体的显著潜力,通过先进的推理能力和工具协调能力,其表现已接近人类专家水平。然而,在完全动态和实时的环境中进行决策仍然极具挑战性,需要实现实时信息整合与自适应响应。尽管已有研究探索了在结构化任务中的实时评估机制,但在面向真实世界应用的系统性基准测试方面仍存在明显空白,尤其是在金融领域,对实时策略响应能力有着严格要求。为填补这一空白,我们推出了AI-Trader——首个面向LLM智能体在金融决策中实现全自动、实时且数据无污染的评估基准。AI-Trader覆盖三大主要金融市场:美国股票、A股和加密货币,并支持多种交易粒度,以模拟真实的金融环境。该基准采用一种革命性的“完全自主、最小信息”范式:智能体仅能获取最基本的情境信息,必须独立完成对实时市场信息的搜索、验证与综合,全程无需人工干预。我们在三个市场及多种交易频率下评估了六种主流大语言模型的表现。分析揭示出若干令人震惊的发现:通用智能并不能自动转化为有效的交易能力,大多数智能体表现出收益不佳且风险控制能力薄弱。我们证明,风险控制能力是决定跨市场稳健性的关键因素,而人工智能交易策略在高流动性市场中比在政策驱动型市场中更容易实现超额收益。这些发现揭示了当前自主智能体的关键局限性,并为未来改进指明了清晰方向。相关代码与评估数据均已开源,以促进社区研究:https://github.com/HKUDS/AI-Trader。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决当前大型语言模型(LLMs)作为自主代理在动态、实时环境中(尤其是金融领域)决策能力缺乏系统性评估的问题。尽管LLMs在静态任务中表现出色,但在需要实时信息整合与自适应响应的真实金融市场中,其表现尚不明确。该问题在现有研究中未被充分探索,尤其缺少完全自动化、无数据污染的实时评测基准,因此具有新颖性和现实紧迫性。
  • 关键思路
    提出AI-Trader——首个全自动化、实时运行且数据无污染的LLM代理金融决策评测基准。其核心创新在于‘极简信息范式’:代理仅获得最基本上下文,必须自主搜索、验证并综合实时市场信息进行交易决策,完全脱离人工干预。这一设计真实模拟了现实世界中信息不对称与不确定性环境,显著区别于以往依赖历史回测或结构化输入的研究。
  • 其它亮点
    AI-Trader覆盖三大金融市场(美股、A股、加密货币),支持多交易频率,具备高度现实代表性;实验评估了6个主流LLM在跨市场、多频段下的表现,发现通用智能不等于交易能力,风险控制是决定跨市场鲁棒性的关键因素;研究揭示高流动性市场更易实现超额收益,而政策驱动市场更具挑战;代码与评估数据已开源(https://github.com/HKUDS/AI-Trader),为后续研究提供坚实基础;未来可深入方向包括增强LLM的风险感知机制、提升实时信息检索与事实核查能力。
  • 相关研究
    1. ‘Language Models as Agents: A Survey’(2023) 2. ‘AgentBench: Evaluating LLMs as Agents’(2023) 3. ‘WebShop: Towards Scalable Real-World Web Interaction with Autonomous Agents’(2023) 4. ‘FinGPT: Open-Source Financial Large Language Models’(2023) 5. ‘ReAct: Synergizing Reasoning and Acting in Language Models’(2023)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问