每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Symbolic Learning Enables Self-Evolving Agents
Wangchunshu Zhou ,
Yixin Ou ,
Shengwei Ding ,
...
2024年06月26日
AI社区一直在探索通过开发“语言代理”来实现人工通用智能(AGI)的路径,这些代理是复杂的大型语言模型(LLM)管道,涉及提示技术和工具使用方法。虽然语言代理在许多实际任务中展示了令人印象深刻的能力,但当前语言代理研究的一个根本限制是它们是模型中心或工程中心的。也就是说,提示、工具和管道的进展需要人类专家进行大量手动工程工作,而不是从数据中自动学习。我们认为,从模型中心或工程中心转向数据中心,即语言代理在环境中自主学习和演化的能力,是它们可能实现AGI的关键。 在这项工作中,我们介绍了代理符号学习,这是一个系统性框架,使语言代理能够以数据为中心使用符号优化器自我优化。具体而言,我们将代理视为符号网络,其中可学习的权重由提示、工具和它们的堆叠方式定义。代理符号学习旨在通过模仿连接主义学习中的两个基本算法:反向传播和梯度下降,来优化语言代理中的符号网络。代理符号学习不是处理数字权重,而是使用权重、损失和梯度的自然语言类比。我们在标准基准测试和复杂的实际任务上进行了概念验证实验,并展示了代理符号学习使语言代理能够在创建和部署后自我更新,从而产生“自我演化代理”。
362
热度
NLP
AI
ML
PDF
解读
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
Max Zuo ,
Francisco Piedrahita Velez ,
Xiaochen Li ,
...
2024年07月03日
最近的许多研究探索了使用语言模型解决规划问题的方法。其中一条研究路线专注于将规划任务的自然语言描述翻译成结构化的规划语言,例如规划领域定义语言(PDDL)。虽然这种方法很有前途,但是准确地衡量生成的PDDL代码的质量仍然存在显着的挑战。首先,生成的PDDL代码通常使用规划验证器进行评估,以检查问题是否可以使用规划器解决。这种方法是不够的,因为语言模型可能会生成有效的PDDL代码,但这些代码与任务的自然语言描述不一致。其次,现有的评估集通常具有与真实PDDL非常相似的规划任务的自然语言描述,从而降低了任务的难度。为了弥合这一差距,我们介绍了一个名为\benchmarkName 的基准测试,旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。我们首先创建了一个PDDL等价算法,通过灵活地将其与真实PDDL进行比较,严格评估了语言模型生成的PDDL代码的正确性。然后,我们提供了一个数据集,包括13个不同任务的132,037个文本到PDDL对,难度各异。最后,我们评估了几种API访问和开放权重的语言模型,揭示了这个任务的复杂性。例如,GPT-4o生成的87.6%的PDDL问题描述在语法上是可解析的,82.2%是有效的可解决问题,但只有35.1%在语义上是正确的,突出了需要更严格的基准测试来解决这个问题。
81
热度
NLP
AI
ML
PDF
解读
A Single Transformer for Scalable Vision-Language Modeling
Yangyi Chen ,
Xingyao Wang ,
Hao Peng ,
...
2024年07月08日
我们介绍了SOLO,一种可扩展的视觉语言建模的单一Transformer。目前的大型视觉语言模型(LVLMs)如LLaVA大多采用异构架构,将预训练的视觉编码器与大型语言模型(LLMs)连接起来,以促进视觉识别和复杂推理。虽然相对轻量级的训练取得了显著的性能,但我们确定了四个主要的可扩展性限制:(1)视觉容量受到预训练视觉编码器的限制,这些编码器通常比LLMs小一个数量级。(2)异构架构使得使用已建立的硬件和软件基础设施变得复杂。(3)对这种架构的扩展定律的研究必须考虑三个单独的组件——视觉编码器、连接器和LLMs,这使得分析变得复杂。(4)使用现有的视觉编码器通常需要遵循图像输入预处理的预定义规范,例如通过将输入重塑为固定分辨率的正方形图像,这在处理和训练高分辨率图像或具有不寻常的纵横比的图像时会带来困难。像SOLO这样的统一单一Transformer架构有效地解决了LVLMs中的这些可扩展性问题;然而,它在现代环境中的有限采用可能源于缺乏可靠的训练配方,以平衡两种模态并确保稳定的训练,以实现10亿级别的模型。在本文中,我们介绍了第一个开源训练配方,用于开发SOLO,这是一种开源的7B LVLM,使用适度的学术资源。训练配方包括从LLMs初始化,对ImageNet和Web规模数据进行顺序预训练,并对我们精心策划的高质量数据集进行指导微调。在广泛的评估中,SOLO表现出与LLaVA-v1.5-7B可比的性能,特别是在视觉数学推理方面表现出色。
74
热度
CV
NLP
ML
PDF
解读