每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Responsible AI Agents
2025年02月25日
得益于大型语言模型的进展,一种新型的软件代理——人工智能(AI)代理——已经进入市场。像OpenAI、谷歌、微软和Salesforce这样的公司承诺,他们的AI代理将从生成被动文本转变为执行任务。不再是仅仅提供旅行计划,AI代理会为你预订旅行的所有方面;不再只是为社交媒体帖子生成文本或图像,AI代理会将内容发布到多个社交媒体平台上。AI代理的潜在力量引发了法律学者的担忧,他们担心AI代理将导致非法商业活动、操纵人类、广泛的诽谤以及知识产权侵害。这些学者呼吁在AI代理造成混乱之前对其进行监管。 本文直接应对围绕AI代理的种种担忧。文章指出,软件之间交互的核心方式为约束AI代理提供了方法,使得不法和不希望的行为发生的可能性较低,甚至可能比设计来规范人类代理的规则更为有效。同时,本文提出了一种利用计算机科学中的价值对齐方法来提高用户预防或纠正AI代理操作的能力。这种方法还带来了额外的好处,即帮助AI代理与用户和AI代理互动的规范保持一致。这些实践将促进预期的经济结果并减轻感知到的风险。本文还论证了,无论AI代理看起来多么像人类代理,它们都不需要也不应该被赋予法人地位。简而言之,人类应对AI代理的行为负责,而本文提供了一份指南,说明人类如何构建和维护负责任的AI代理。
340
热度
PDF
解读
Self-Organizing Graph Reasoning Evolves into a Critical State for Continuous Discovery Through Structural-Semantic Dynamics
2025年03月24日
我们揭示了代理图推理系统如何自发地演进至一个临界状态,从而维持持续的语义发现。通过严格分析结构熵(冯·诺依曼图熵)和语义熵(嵌入熵),我们识别出一个微妙但稳健的状态,在该状态下,语义熵持续主导结构熵。这种相互作用通过一个无量纲的临界发现参数进行量化,该参数稳定在一个较小的负值,表明语义熵始终占据主导地位。在经验观察中,我们发现有12%的“令人惊讶”的边,这些边连接了语义上相距较远的概念,为驱动持续创新的长距离或跨领域连接提供了证据。同时,系统表现出无标度性和小世界拓扑特征,并且结构与语义度量之间存在负交叉相关性,这进一步强化了其与自组织临界性的类比。这些结果清晰地展示了与物理、生物和认知复杂系统中的临界现象的平行关系,揭示了一个基于熵的原则,该原则支配着适应性和持续创新。至关重要的是,尽管语义丰富性并未被显式用于推理过程,但它作为持续探索的根本驱动力浮现出来。我们的研究结果提供了跨学科的洞见和实用策略,可用于设计具有内在长期发现与适应能力的智能系统,并为开发强化临界发现的模型训练策略提供了启示。
301
热度
PDF
解读
Reasoning to Learn from Latent Thoughts
2025年03月24日
语言模型(LM)的计算扩展在人类书写的文本增长速度之上,引发了对数据可能成为 LM 扩展瓶颈的担忧。为了在这种数据受限的情况下继续扩展预训练,我们提出,显式建模并推断文本生成过程背后的潜在思维可以显著提高预训练的数据效率。直观来说,我们的方法将网络文本视为冗长的人类思维过程的压缩最终结果,而这些潜在思维包含了对数据高效学习至关重要的上下文知识和推理步骤。我们通过数学领域的数据受限持续预训练实证展示了该方法的有效性。 首先,我们证明了用于推断潜在思维的合成数据方法可以显著提高数据效率,并且优于在相同量的原始数据上进行训练(在 MATH 数据集上从 5.7% 提高到 25.4%)。此外,我们展示了在没有强大教师模型的情况下如何推断潜在思维,其中语言模型通过使用期望最大化(EM)算法迭代改进自身性能和思维增强预训练数据的质量。我们证明了一个参数量为 10 亿的语言模型可以通过至少三次迭代来提升其性能,并显著优于在原始数据上训练的基线模型。在执行 E 步骤时,额外的推理计算资源能够带来更大的收益。推理扩展和 EM 迭代所带来的提升表明,在数据受限的情况下,预训练扩展存在新的机会。
226
热度
PDF
解读
Video-T1: Test-Time Scaling for Video Generation
2025年03月24日
随着训练数据规模、模型大小和计算成本的扩展,视频生成在数字创作领域取得了令人印象深刻的结果,使用户能够在各个领域展现创造力。近期,大语言模型(LLMs)的研究人员将这种扩展应用到了推理阶段,通过增加推理时的计算量显著提升了模型性能。与通过高昂的训练成本来扩展视频基础模型不同,我们探索了测试时扩展(Test-Time Scaling, TTS)在视频生成中的潜力,旨在回答以下问题:如果允许视频生成模型使用非平凡的推理计算资源,它在面对具有挑战性的文本提示时能多大程度提升生成质量。 在这项工作中,我们将视频生成的测试时扩展重新解读为一个搜索问题,即从高斯噪声空间中采样出更优的轨迹以接近目标视频分布。具体而言,我们通过构建测试时验证器来提供反馈,并设计启发式算法来引导搜索过程。给定一个文本提示,我们首先尝试了一种直观的线性搜索策略,即在推理阶段增加噪声候选样本的数量。然而,由于对所有帧同时进行全步去噪需要极高的测试时计算成本,我们进一步设计了一种更高效的TTS方法——帧树(Tree-of-Frames, ToF),该方法以自回归的方式自适应地扩展和剪枝视频分支。 我们在基于文本条件的视频生成基准上进行了大量实验,结果表明,增加测试时计算量能够持续显著提升生成视频的质量。项目页面:https://liuff19.github.io/Video-T1
153
热度
PDF
解读
PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning
2025年03月21日
为了构建互动虚拟角色的运动系统,关键在于开发一种生成式运动模型,该模型能够以持续、真实、可控且响应迅速的方式驱动身体在三维空间中移动。尽管运动生成已经得到了广泛的研究,但大多数方法由于其离线设置、速度较慢、运动长度有限或动作不自然,并不支持“具身智能”。为了解决这些限制,我们提出了PRIMAL,这是一种基于自回归扩散模型的方法,采用两阶段学习范式,灵感来源于近期基础模型的进展。在预训练阶段,模型从大量亚秒级的运动片段中学习运动动态,提供构建更复杂动作所需的“运动原语”。在适应阶段,我们使用类似于ControlNet的适配器来微调运动控制,以实现语义动作生成和空间目标到达。实验表明,物理效应可以从我们的训练中显现出来。给定一个单帧初始状态,我们的模型不仅能够生成无限、真实且可控的运动,还能使虚拟角色实时响应诱导的冲量。此外,我们可以高效地将基础模型适应于少量样本的个性化动作和空间控制任务。评估结果显示,我们提出的方法优于现有的最先进基线方法。我们将该模型应用于Unreal Engine中,创建了一个高度响应且自然的实时角色动画系统。代码、模型和更多结果可在此获取:https://yz-cnsdqz.github.io/eigenmotion/PRIMAL
146
热度
PDF
解读