每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
On the Convergence and Stability of Upside-Down Reinforcement Learning, Goal-Conditioned Supervised Learning, and Online Decision Transformers
2025年02月08日
本文对Episodic Upside-Down 强化学习、目标条件监督学习和在线决策转换器的收敛性和稳定性进行了严格的分析。这些算法在从游戏到机器人任务的各种基准测试中表现出色,但对其理论理解仅限于特定的环境条件。这项工作为基于广泛范式的算法奠定了理论基础,这些算法通过监督学习或序列建模方法来处理强化学习问题。研究的核心在于分析底层环境的条件,在这些条件下,算法能够识别最优解。我们还评估了在环境受到极小噪声影响的情况下,新兴解决方案是否保持稳定。 具体而言,我们研究了命令条件策略、价值和目标达成目标的连续性和渐近收敛性,这些都依赖于底层马尔可夫决策过程的转移核。我们证明了如果转移核位于确定性核的足够小邻域内,则可以实现接近最优的行为。所提到的数量(策略、价值等)在确定性核处是连续的(针对特定拓扑结构),无论是在渐近情况下还是在有限的学习周期后。开发的方法使我们能够首次明确估计策略和价值的收敛性和稳定性,这些估计基于底层转移核。 在理论方面,我们引入了一些新的概念到强化学习领域,例如在片段空间中工作、在商拓扑中研究连续性以及应用动力系统理论中的不动点理论。理论研究伴随着对示例环境的详细调查和数值实验。
952
热度
PDF
解读
Agentic Deep Graph Reasoning Yields Self-Organizing Knowledge Networks
2025年02月18日
我们提出了一种代理型、自主的图扩展框架,该框架迭代地在原位结构化和细化知识。与依赖静态提取或单次学习的传统知识图谱构建方法不同,我们的方法将一个以推理为本的大型语言模型与不断更新的图表示相结合。在每一步中,系统会主动生成新的概念和关系,将其合并到全局图中,并根据其演变结构制定后续提示。通过这种反馈驱动的循环,模型将信息组织成一个无尺度网络,其特征是中心节点形成、模块性稳定以及桥接节点连接不同的知识集群。经过数百次迭代后,新的节点和边继续出现而不会饱和,同时中心性度量和最短路径分布也在演变,从而产生越来越分散的连通性。我们的分析揭示了涌现模式,例如高度连接的“枢纽”概念的兴起以及“桥梁”节点影响力的转变,这表明代理型、自我强化的图构建可以产生开放且连贯的知识结构。应用于材料设计问题时,我们通过提取特定节点和协同层面的原则进行组合推理实验,以促进真正新颖的知识合成,产生超越机械总结的跨领域想法,增强了该框架在开放式科学发现中的潜力。我们还讨论了该方法在其他科学发现中的应用,并概述了未来提升可扩展性和可解释性的方向。
386
热度
PDF
解读