每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets
2025年12月01日
大型语言模型(LLMs)已展现出作为自主智能体的显著潜力,通过先进的推理能力和工具协调能力,其表现已接近人类专家水平。然而,在完全动态和实时的环境中进行决策仍然极具挑战性,需要实现实时信息整合与自适应响应。尽管已有研究探索了在结构化任务中的实时评估机制,但在面向真实世界应用的系统性基准测试方面仍存在明显空白,尤其是在金融领域,对实时策略响应能力有着严格要求。为填补这一空白,我们推出了AI-Trader——首个面向LLM智能体在金融决策中实现全自动、实时且数据无污染的评估基准。AI-Trader覆盖三大主要金融市场:美国股票、A股和加密货币,并支持多种交易粒度,以模拟真实的金融环境。该基准采用一种革命性的“完全自主、最小信息”范式:智能体仅能获取最基本的情境信息,必须独立完成对实时市场信息的搜索、验证与综合,全程无需人工干预。我们在三个市场及多种交易频率下评估了六种主流大语言模型的表现。分析揭示出若干令人震惊的发现:通用智能并不能自动转化为有效的交易能力,大多数智能体表现出收益不佳且风险控制能力薄弱。我们证明,风险控制能力是决定跨市场稳健性的关键因素,而人工智能交易策略在高流动性市场中比在政策驱动型市场中更容易实现超额收益。这些发现揭示了当前自主智能体的关键局限性,并为未来改进指明了清晰方向。相关代码与评估数据均已开源,以促进社区研究:https://github.com/HKUDS/AI-Trader。
1.35w
热度
PDF
解读
Stress Testing Deliberative Alignment for Anti-Scheming Training
2025年09月19日
能力强大的人工智能系统可能会在暗中追求与其被设定目标不一致的意图——我们称之为“图谋行为”。由于具有图谋行为的人工智能会刻意隐藏其不一致的目标和行动,因此测量和缓解这类行为所需的方法,不同于机器学习中通常采用的策略。我们认为,评估防范图谋行为的干预措施至少需要满足三个条件:(1)在严重分布外(far out-of-distribution, OOD)的任务上测试模型产生图谋行为的倾向;(2)判断模型未表现出图谋行为的原因是否源于其对当前情境的觉察(situational awareness);(3)检验干预措施能否有效应对模型中已预先存在的不一致目标。我们将“隐秘行为”(covert actions)作为一个宽泛类别,用以代理图谋行为,这类行为包括秘密违反规则或在测试中有意表现不佳等,并据此设计了针对隐秘行为的评估方法。随后,我们以“审慎对齐”(deliberative alignment)作为防范图谋行为的一个案例进行压力测试。在共计26项分布外评估(涵盖180多个环境)中,“审慎对齐”显著降低了隐秘行为的发生率(例如,在OpenAI o3模型中从13%降至0.4%),但并未完全消除此类行为。我们的缓解措施在很大程度上也能阻止智能体继续追求先前被训练植入的隐藏目标,但在进一步的红队测试中,仍发现了不当行为。我们发现,模型的思维链(chain-of-thought, CoT)常常显现出其意识到自身正接受对齐性评估的迹象,并提供了因果证据表明:这种自我觉察会减少隐秘行为,而缺乏觉察则会加剧此类行为。因此,我们不能排除观察到的隐秘行为减少至少部分是由情境觉察所驱动的可能性。尽管我们在训练、研究情境觉察以及揭示明显不一致行为时依赖于人类可理解的思维链,但随着模型逐渐脱离标准英语进行推理,我们对此类可解释输出的依赖将不断减弱。我们鼓励开展更多关于防范图谋行为的对齐缓解技术及其评估方法的研究,特别是针对本文尚未涉及的对抗性场景——欺骗性对齐(deceptive alignment)情形下的研究。
664
热度
许愿开讲
PDF
解读
Large-scale online deanonymization with LLMs
2026年02月18日
我们证明,大语言模型可用于开展大规模去匿名化操作。在具备完整互联网访问权限的情况下,我们的智能体仅凭用户匿名化的在线个人资料及对话内容,即可以极高准确率重新识别 Hacker News 用户与 Anthropic 面试参与者——这一能力相当于一名专注的人类调查员需耗费数小时才能完成的工作。随后,我们针对“封闭世界”(closed-world)场景设计了新型攻击方法:给定两个均包含非结构化文本的匿名用户数据库(这些文本或是由用户本人撰写,或是关于该用户的描述),我们构建了一套可扩展的攻击流水线,利用大语言模型实现以下三步操作:(1)提取与身份识别高度相关的关键特征;(2)借助语义嵌入技术,在海量数据中高效检索潜在匹配对象;(3)对排序靠前的候选匹配项进行深度推理,以验证匹配结果并显著降低误报率。相较于传统去匿名化研究(例如针对 Netflix Prize 数据集的早期工作)——其严重依赖结构化数据,我们的方法可直接作用于任意网络平台上的原始用户生成内容,无需预设数据格式或字段结构。为系统评估该攻击效果,我们构建了三个具备真实标注(ground-truth)的评测数据集:第一个数据集通过个人资料中出现的跨平台引用信息,将 Hacker News 用户与其 LinkedIn 个人主页进行关联;第二个数据集旨在匹配 Reddit 上不同电影讨论社区中的同一用户;第三个数据集则将单个用户的 Reddit 历史发帖按时间切分为两段,人为构造出两个独立的匿名用户档案,再尝试将其重新关联。在所有三种实验设定下,基于大语言模型的方法均显著超越经典基线方法:在保持 90% 高精度的前提下,最高可达 68% 的召回率;而表现最优的传统非大语言模型方法在此精度水平下的召回率几乎为零。我们的研究结果表明,当前网络空间中支撑伪匿名用户安全的“实际隐蔽性”(practical obscurity)已不复存在,面向在线隐私保护的威胁模型亟需重新审视与更新。
511
热度
许愿开讲
PDF
解读
Speculative Speculative Decoding
2026年03月03日
自回归解码受限于其固有的串行特性。推测解码(speculative decoding)已成为一种标准的推理加速方法:它利用一个快速的草稿模型(draft model)预测后续若干词元,再通过一次慢速的目标模型(target model)前向传播并行验证这些预测结果。然而,推测解码本身仍依赖于“推测”与“验证”之间的串行依赖关系。为此,我们提出“双重推测解码”(Speculative Speculative Decoding, SSD),以实现这两类操作的并行化:在目标模型执行验证的同时,草稿模型即预先推测出最可能的验证结果,并据此提前生成下一轮的推测序列。若实际验证结果恰好落在该预判集合之中,则可立即返回对应推测结果,从而彻底消除草稿生成环节的开销。我们系统识别出双重推测解码所面临的三大关键挑战,并为每一项挑战提出了具有理论依据的解决方案。最终成果是 Saguaro——一种经过全面优化的 SSD 算法。我们的实现相较已高度优化的推测解码基线提速最高达 2 倍,相较开源推理引擎中的标准自回归解码提速最高达 5 倍。
340
热度
许愿开讲
PDF
解读
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
2025年04月17日
预训练数据集通常从网络内容中收集,缺乏固有的领域划分。例如,广泛使用的数据集(如 Common Crawl)不包含明确的领域标签,而手动整理带标签的数据集(如 The Pile)则需要大量人工投入。因此,尽管找到最优的预训练数据混合方案对提升预训练性能有显著好处,但这一问题仍然颇具挑战性。为了解决这些难题,我们提出了基于聚类的迭代数据混合引导框架(CLIMB),这是一个自动化框架,用于在预训练环境中发现、评估和优化数据混合方案。具体而言,CLIMB 将大规模数据集嵌入到语义空间中进行聚类,然后通过一个小规模代理模型和预测器迭代搜索最优的数据混合方案。当使用这种混合方案连续训练 4000 亿个 token 时,我们的 10 亿参数模型性能超过了当前最先进的 Llama-3.2-1B 模型 2.0%。此外,我们发现针对特定领域(例如社会科学)进行优化,相较于随机采样可以带来 5% 的性能提升。最后,我们发布了 ClimbLab,这是一个经过过滤的 1.2 万亿 token 语料库,包含 20 个聚类,可作为研究平台;以及 ClimbMix,一个紧凑而强大的 4000 亿 token 数据集,专为高效预训练设计,在相同 token 数量预算下表现出更优性能。我们对最终的数据混合方案进行了分析,阐明了最优数据混合的关键特征。我们的数据资源可在以下链接获取:https://research.nvidia.com/labs/lpr/climb/
237
热度
许愿开讲
PDF
解读
FlashOptim: Optimizers for Memory Efficient Training
2026年02月26日
标准的混合精度神经网络训练,每个模型参数需占用加速器内存中大量字节。这些字节不仅用于存储参数本身,还需存储其梯度以及一个或多个优化器状态变量。由于上述每一项数值通常需占用4个字节,因此即使训练一个仅含70亿参数的模型,对于加速器内存不足100GB的研究人员而言,也可能变得难以实现。 我们提出FlashOptim——一套可将每个参数所需内存降低50%以上的优化技术,在保持模型性能与API兼容性的同时,显著缓解内存压力。该方法包含两项核心技术:第一,通过推导并利用主权重分割(master weight splitting)量化误差的紧致上界,进一步提升其精度;第二,设计新型压扩(companding)函数,大幅降低8位精度下优化器状态变量的量化误差。结合16位精度的梯度表示,上述技术可将AdamW优化器的每参数内存开销从16字节降至7字节;若进一步启用梯度释放(gradient release),还可进一步压缩至每参数仅需5字节。此外,模型检查点(checkpoint)的存储体积亦可缩减一半以上。 我们在SGD、AdamW和Lion三种优化器上应用FlashOptim,并在涵盖标准计算机视觉与自然语言处理基准任务(包括Llama-3.1-8B模型的微调任务)的广泛实验中验证其效果。结果表明,所有任务均未观测到任何可测量的性能下降。
214
热度
许愿开讲
PDF
解读
AI Must Embrace Specialization via Superhuman Adaptable Intelligence
2026年02月27日
从人工智能企业高管、研究人员,到末日论者、政界人士及社会活动家,各界人士都在热议“通用人工智能”(AGI)。然而,他们往往对AGI的确切定义莫衷一是。一种广为流传的定义认为,AGI是指能够完成人类所能完成的一切任务的人工智能;但人类本身真的“通用”吗?本文探讨了我们对AGI这一概念的理解存在哪些根本性偏差,并指出:即便在最严谨、最自洽的表述下,AGI仍是一个有缺陷的概念,无法准确刻画人工智能未来的发展图景。我们审视了当前最受认可的若干AGI定义,考察其是否合理、是否具有实际指导价值、以及是否真正具备“通用性”。我们认为,人工智能的发展方向不应是追求面面俱到的“通用”,而应坚定走向“专业化”;并且,在专业化道路上,应以超越人类的卓越性能为目标。为此,我们提出“超人适应型智能”(Superhuman Adaptable Intelligence, SAI)这一新概念。SAI被定义为:一种能够通过学习,在人类所能胜任的任何重要任务上实现全面超越,并能填补人类能力所不及之技能空白的智能形态。随后,我们阐明SAI如何助力厘清当前因AGI定义泛化、负载过重而日益模糊的人工智能讨论;并进一步推演:若以SAI为指引来规划人工智能的未来发展,将带来哪些深远影响与实践启示。
210
热度
许愿开讲
PDF
解读
Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
2025年06月10日
本研究探讨了大型语言模型(LLM)辅助写作对神经活动和行为的影响。参与者被分为三组:LLM组、搜索引擎组和纯脑力组(无工具辅助)。每组在相同条件下完成了三次写作任务。在第四次任务中,LLM组的参与者被重新分配到纯脑力组(LLM转纯脑力),而纯脑力组的参与者则被重新分配到LLM组(纯脑力转LLM)。共有54名参与者完成了前三个阶段的任务,其中18人完成了第四阶段的任务。我们通过脑电图(EEG)评估写作过程中的认知负荷,并使用自然语言处理(NLP)技术分析文章内容,同时结合人类教师和AI评分系统对文章进行评分。 结果表明,在各组内部,命名实体识别(NER)、n-gram模式和主题本体均表现出较高的同质性。脑电图数据显示,不同组别的大脑连接性存在显著差异:纯脑力组的大脑网络最为强大且分布广泛;搜索引擎组表现出中等程度的参与度;而LLM组的大脑连接性最弱。认知活动随着外部工具使用的增加而逐渐减少。在第四阶段任务中,从LLM转为纯脑力的参与者显示出α波和β波连接性的降低,表明其参与度不足。而从纯脑力转为LLM的参与者则表现出更高的记忆回忆能力以及枕叶-顶叶和额叶区域的激活,这一表现与搜索引擎组相似。 此外,自评结果显示,LLM组对文章的“所有权”感最低,而纯脑力组最高。值得注意的是,LLM组的参与者在准确引用自己作品方面也遇到了困难。尽管LLM提供了即时便利,但我们的研究揭示了其可能带来的认知成本。在为期四个月的研究中,LLM组在神经、语言和行为层面的表现始终逊于其他组别。这些结果引发了对长期依赖LLM在教育领域影响的担忧,并强调了深入探究人工智能在学习中角色的重要性。
189
热度
许愿开讲
PDF
解读
Latent Introspection: Models Can Detect Prior Concept Injections
2026年02月23日
我们发现Qwen-32B模型具备一种潜在的内省能力:该模型能够察觉自身早期上下文中是否被注入了特定概念,并准确识别出被注入的是哪一个概念。尽管在采样生成的输出中,模型会否认此类注入行为,但通过“logit lens”(逻辑值透镜)分析,我们仍可在其残差流(residual stream)中清晰观测到内省检测信号;不过,这些信号在最终若干层中逐渐减弱。此外,若在提示(prompt)中向模型提供关于人工智能内省机制的准确信息,则可显著增强这一内省效应:模型对概念注入的敏感度大幅提升(从0.3%跃升至39.9%),而误报率仅略微上升0.6%。同时,九组被注入概念与模型所恢复概念之间的互信息量亦从0.61比特提升至1.05比特,从而排除了该现象仅由通用噪声所致的可能性。我们的研究结果表明,大语言模型可能具备远超预期的内省能力与自我调控意识(steering awareness),而这种能力极易被忽视;这一发现对模型的潜在推理机制及人工智能安全具有重要启示意义。
188
热度
许愿开讲
PDF
解读