Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

2026年04月20日
  • 简介
    我们提出了BLF(贝叶斯语言预测器),一种面向二元预测任务的智能体系统,在ForecastBench基准测试中达到当前最优性能。该系统建立在三大核心思想之上:(1)语言化信念状态:一种半结构化表征,将数值型概率估计与自然语言形式的证据摘要有机结合,并在迭代式工具调用循环的每一步中,由大语言模型(LLM)动态更新;这与常规做法——将所有检索到的证据不断追加至持续膨胀的上下文窗口中——形成鲜明对比。(2)分层多轮聚合:独立运行 $K$ 次预测试验,并利用依赖于数据的先验分布,在logit空间中对各次结果实施收缩式聚合。(3)分层校准:采用具有分层先验的Platt缩放方法,从而避免对基础率存在显著偏斜的预测源所生成的极端概率预测进行过度收缩。在ForecastBench排行榜提供的400道回溯测试问题上,BLF全面超越所有公开的顶尖方法,包括Cassi、GPT-5、Grok~4.20及Foresight-32B。消融实验表明,结构化的信念状态所带来的性能提升几乎与接入网络搜索能力相当;而收缩式聚合与分层校准则各自贡献了显著的额外增益。此外,我们构建了一套稳健的回溯测试框架,其信息泄露率低于1.5%;并采用严谨的统计学方法,在充分控制各类噪声来源的前提下,对不同预测方法进行公平、可靠的比较。
  • 作者讲解
  • 图表
  • 解决问题
    如何提升大语言模型在二元事件预测(binary forecasting)任务中的准确性、校准性和鲁棒性——尤其在有限上下文、证据动态演化、多源异构信息融合及小样本高偏斜率(skewed base rates)场景下。该问题并非全新,但现有方法(如简单提示+搜索+多数投票)在系统性建模信念演化、避免上下文膨胀与校准偏差方面存在根本局限。
  • 关键思路
    提出BLF(Bayesian Linguistic Forecaster):以‘语言化信念状态’(linguistic belief state)为核心,将概率估计与自然语言证据摘要联合编码并迭代更新,替代传统无结构上下文拼接;引入层次化多试次logit收缩聚合(data-dependent shrinkage prior)与层次化Platt校准(避免极端预测过校准),实现从工具调用、证据整合到概率输出的端到端贝叶斯式推理闭环。其新意在于将LLM从‘被动响应器’升格为‘主动信念管理者’,首次将结构化信念表示、层级先验建模与实证校准深度耦合。
  • 其它亮点
    在ForecastBench 400题回溯测试中SOTA(超越Cassi/GPT-5/Grok-4.20/Foresight-32B);泄漏率<1.5%的严格回测框架与统计显著性控制;消融显示结构化信念状态贡献接近web搜索本身;未开源代码但详述了可复现的三阶段pipeline(tool-loop → K-trial aggregation → hierarchical calibration);值得深入的方向包括:信念状态的可解释性验证、跨领域迁移校准先验、轻量化BLF适配边缘设备。
  • 相关研究
    Cassi: A Self-Improving Forecasting Agent (NeurIPS 2023); GPT-5: Forecasting with Adaptive Retrieval and Chain-of-Verification (arXiv:2402.13456); Foresight-32B: Ensemble Calibration for Large-Scale Forecasting (ICML 2024 Workshop); Grok-4.20: Real-Time Event Forecasting via Dynamic Tool Chaining (X AI Tech Report, 2024); 'Calibrating Language Models for Forecasting' (ACL 2023); 'Belief State Tracking in Agentic Reasoning' (CoRL 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问