每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Contour Integration Underlies Human-Like Vision
2025年04月07日
尽管深度学习在计算机视觉领域取得了巨大成功,模型在泛化到新输入分布时仍然不如人类。现有的基准测试并未通过分析多种受控条件下的表现来探究模型的具体失败点。我们的研究通过设计一个实验系统性地剖析模型在轮廓整合(人类视觉的一个标志性特征)方面遇到困难的地点和原因,该实验测试了在不同物体碎片化程度下的物体识别能力。即使在物体轮廓较少的情况下,人类(n=50)仍能保持高准确率。相比之下,模型对增加的物体轮廓敏感度显著较低,在我们测试的1,000多个模型中,大多数的表现仅略高于随机猜测。只有当训练数据集规模非常大(约50亿)时,模型的表现才开始接近人类水平。重要的是,人类表现出一种整合偏向——更倾向于识别由方向性碎片组成的物体,而非无方向性的碎片。我们发现,不仅具有这种特性的模型在我们的任务中表现更好,而且这种偏向还随着模型训练数据集的规模增大而增强。此外,训练模型以实现轮廓整合会导致较高的形状偏向。综合来看,我们的结果表明,轮廓整合是物体视觉的一个标志性特征,支撑了物体识别的表现,并且可能是从大规模数据中学习到的一种机制。
581
热度
PDF
解读
Aioli: A Unified Optimization Framework for Language Model Data Mixing
2024年11月08日
语言模型的性能取决于识别出用于训练的最佳数据组混合比例(例如法律、代码、数学)。先前的研究提出了一系列高效学习混合比例的方法,从在训练过程中拟合回归模型到在整个训练过程中动态更新比例。令人惊讶的是,我们发现没有任何现有方法在每个组的平均测试困惑度方面始终优于简单的分层抽样基线。在这篇论文中,我们通过将现有方法统一到一个标准优化框架中来研究这种不一致的原因。我们表明,所有方法都设置比例以最小化总损失,但受制于特定方法的混合定律——即损失与混合比例之间的函数关系的假设。我们发现,现有的混合定律参数化可以在经验上表达真实的损失-比例关系,但这些方法本身往往无法准确设置混合定律参数,导致性能不佳且不一致。最后,我们利用我们框架中的见解,推导出一种新的在线方法Aioli,该方法在整个训练过程中直接估计混合定律参数,并使用这些参数动态调整比例。实证结果表明,Aioli在6个数据集中有6个优于分层抽样,平均提高了0.28个测试困惑度点,而现有方法则无法始终胜过分层抽样,最差时相差6.9个点。此外,在实际情况下,由于计算限制,比例是在较短的运行中学习的,Aioli可以在此类全程训练中动态调整这些比例,相比现有方法最多可提高12.01个测试困惑度点。
189
热度
PDF
解读
WindVE: Collaborative CPU-NPU Vector Embedding
2025年04月21日
检索增强生成(Retrieval-Augmented Generation)是一种通过整合信息检索技术来增强大语言模型性能的方法。在工业界,基于大语言模型的推理服务对成本效益比非常敏感,这促使我们需要提高推理服务中硬件资源的利用率。具体来说,向量嵌入和检索过程占据了总延迟的高达20%。因此,优化向量嵌入中的计算资源利用对于提升推理过程的成本效益比至关重要,而这反过来又能够增强产品的竞争力。本文分析了向量嵌入技术在推理服务中的部署成本,提出了一种理论公式,并通过数学表达式证明,提升并发查询处理能力是降低向量嵌入部署成本的关键。因此,本文重点研究如何提高产品处理并发查询的能力。为了在不牺牲性能的情况下优化并发处理能力,我们设计了一个队列管理器,该管理器能够高效地将高峰查询从CPU卸载到其他处理器上。这个管理器使用线性回归模型来确定最优队列深度,这是一个显著影响系统效率的关键参数。此外,我们开发了一个名为WindVE的系统,该系统采用CPU-NPU异构架构来卸载高峰并发查询,利用两种处理器之间的性能差异有效应对流量激增的情况。通过实验,我们将WindVE与最先进的向量嵌入框架FlagEmbedding进行对比,结果表明,相比不卸载的方案,WindVE的并发处理能力提升了高达22.3%。
163
热度
PDF
解读
MatterTune: An Integrated, User-Friendly Platform for Fine-Tuning Atomistic Foundation Models to Accelerate Materials Simulation and Discovery
2025年04月14日
近年来,几何机器学习模型(例如图神经网络)在化学和材料科学的研究中取得了显著的成功,特别是在高通量虚拟筛选和原子模拟等应用中。这些模型的成功可归因于它们能够直接从训练数据中有效地学习原子结构的潜在表示。然而,这也导致了这些模型对数据的高度依赖,限制了它们在数据稀疏问题中的应用,而数据稀少的问题在这一领域非常普遍。为了解决这一局限性,预训练机器学习模型领域的发展日益增多,这些模型已经学会了原子数据中普遍存在的基本几何关系,并可以进一步微调以适应规模更小、特定于应用场景的数据集。特别是,那些在多样化且大规模原子数据集上预训练的模型,在下游任务中展现了令人印象深刻的泛化能力和灵活性,因此越来越多地被称为原子基础模型。为了挖掘这些基础模型尚未开发的潜力,我们引入了 MatterTune,这是一个模块化且可扩展的框架,提供了高级的微调功能,并能够将原子基础模型无缝集成到下游的材料信息学和模拟工作流中,从而降低了使用门槛并促进了材料科学领域的多样化应用。目前,MatterTune 支持多种最先进的基础模型,例如 ORB、MatterSim、JMP 和 EquformerV2,并具备广泛的功能,包括模块化和灵活的设计、分布式及可定制的微调、对下游信息学任务的广泛支持等。
163
热度
PDF
解读
SkyReels-V2: Infinite-length Film Generative Model
2025年04月17日
近期视频生成领域的进展主要由扩散模型和自回归框架推动,但在协调提示遵循性、视觉质量、运动动态和时长方面仍存在关键挑战:为提升时间维度上的视觉质量而牺牲运动动态、为优先保证分辨率而限制视频时长(5-10秒),以及由于通用多模态大语言模型(MLLM)无法理解电影语法(如镜头构图、演员表情和摄像机运动)而导致的镜头感知生成能力不足。这些相互交织的局限性阻碍了长篇写实合成和专业电影风格生成的发展。为解决这些问题,我们提出了SkyReels-V2,一种无限时长的电影生成模型,该模型通过整合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散引导框架来实现协同优化。首先,我们设计了一种全面的视频结构化表示方法,将多模态LLM提供的通用描述与子专家模型生成的详细镜头语言相结合。借助人工标注,我们进一步训练了一个统一的视频字幕生成器,命名为SkyCaptioner-V1,以高效标注视频数据。其次,我们建立了渐进分辨率的预训练体系用于基础视频生成,并在此基础上进行了四阶段的后训练增强:初始的概念平衡监督微调(SFT)提升了基线质量;针对运动特性的强化学习(RL)训练,结合人工标注和合成失真数据,解决了动态伪影问题;我们的扩散引导框架采用非递减噪声调度,实现了在高效搜索空间中的长视频合成;最后的高质量SFT进一步优化了视觉保真度。所有代码和模型均可在 https://github.com/SkyworkAI/SkyReels-V2 获取。
139
热度
PDF
解读