每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
OmniGen2: Exploration to Advanced Multimodal Generation
2025年06月23日
在这项工作中,我们推出了OmniGen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑以及上下文内生成。与OmniGen v1不同,OmniGen2为文本和图像模态分别设计了两个独立的解码路径,采用不共享的参数和解耦的图像编码器。这一设计使得OmniGen2可以在现有多模态理解模型的基础上进行构建,而无需重新适配VAE输入,从而保留原有的文本生成能力。为了支持OmniGen2的训练,我们开发了全面的数据构建流程,涵盖图像编辑和上下文内生成所需的数据。此外,我们还为图像生成任务引入了一种专门设计的反思机制,并基于OmniGen2构建了一个专用的反思数据集。尽管参数规模相对适中,OmniGen2在多个任务基准测试中仍取得了具有竞争力的结果,包括文本到图像生成和图像编辑。为了进一步评估上下文内生成(也称为主题驱动任务),我们引入了一个新的基准测试集OmniContext。在开源模型中,OmniGen2在一致性方面达到了最先进的性能水平。我们将发布模型、训练代码、数据集以及数据构建流程,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2
4114
热度
许愿开讲
PDF
解读
PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
2024年05月23日
目前对于大型语言模型(LLMs)进行“极限”压缩,即将每个参数压缩到1-2位,以便在资源受限设备上高效执行,引起了极大的关注。现有的工作集中在改进一次性量化技术和权重表示上,然而,纯粹的训练后方法在精度与比特宽度之间的权衡方面已经达到了收益递减的状态。最先进的量化方法,如QuIP#和AQLM,包括在有限的校准数据上微调(部分)压缩参数;然而,这种在压缩权重上的微调技术通常仅使用直通估计器(STE),其性能在这种情况下并不好理解。在本文中,我们对于在极限LLM压缩中使用STE提出了质疑,表明它可能是次优的,并对LLMs的量化感知微调策略进行了系统研究。我们提出了PV-Tuning——一个表示无关的框架,它概括并改进了现有的微调策略,并在受限情况下提供了收敛保证。在实践方面,当用于1-2位向量量化时,PV-Tuning优于先前的技术,适用于高性能模型,如Llama和Mistral。使用PV-Tuning,我们实现了Llama 2系列模型的第一个帕累托最优量化,每个参数2位。
1515
热度
许愿开讲
PDF
解读
Empowering LLMs to Understand and Generate Complex Vector Graphics
2024年12月15日
大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远影响,但尚未完全涉足可缩放矢量图形(SVG)生成领域。虽然在训练过程中,LLMs从网页中编码了部分SVG数据知识,但最近的研究表明,LLMs内部语义模糊且分词化的表示可能导致矢量图元预测中的幻觉现象。此外,LLM训练通常缺乏对矢量路径渲染顺序的建模和理解,这可能导致输出矢量图元之间的遮挡问题。在本文中,我们介绍了LLM4SVG,这是朝着弥合这一差距迈出的初步但重要的一步,旨在使LLMs更好地理解和生成矢量图形。LLM4SVG通过可学习的语义标记促进了对SVG组件的更深入理解,这些标记精确地编码了这些标记及其相应属性,以生成语义对齐的SVG输出。利用一系列可学习的语义标记,开发了一个结构化的指令跟随数据集,支持两个主要任务的理解和生成。我们的方法在现有的大型语言模型中引入了模块化架构,集成了语义标签、矢量指令编码器、微调命令和强大的LLMs,将几何、外观和语言信息紧密结合。为了解决SVG-文本指令数据稀缺的问题,我们开发了一条自动化数据生成管道,收集了超过25万个SVG数据和58万个SVG-文本指令的大规模数据集,这有助于采用在LLM开发中流行的两阶段训练策略。通过探索各种训练策略,我们开发了LLM4SVG,该模型显著超越了基于优化渲染的方法和基于语言模型的基线,在人类评估任务中取得了显著成果。
656
热度
许愿开讲
PDF
解读
Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
2026年04月27日
从高维观测数据中识别系统的动力学状态变量,是整个物理科学领域的一个核心问题。其难点在于:这些状态变量本身不可直接观测,必须在无监督条件下,仅凭原始的高维数据加以推断。本文提出一种名为“动力学对称信息瓶颈”(DySIB, Dynamical Symmetric Information Bottleneck)的方法,用于学习时间序列数据的低维表征;该方法通过最大化过去与未来观测窗口之间的预测互信息,同时惩罚表征的复杂度,来实现学习目标。这一优化目标完全在隐空间(latent space)中进行,无需对原始观测数据进行重构。我们将DySIB应用于一个物理单摆的实验视频数据集——该系统的真实状态空间已知。在学习架构的超参数均由数据自洽地确定的前提下,该方法成功恢复出一个二维表征:其维度、拓扑结构与几何形态均与单摆的相空间完全一致,且所学得的两个坐标轴分别平滑对应于标准的角坐标与角速度坐标。这些结果在一个物理机制明确、特征清晰的实验系统上表明:仅利用隐空间中的预测信息,即可直接从高维观测数据中恢复出具有明确物理解释性的动力学坐标。
617
热度
许愿开讲
PDF
解读
From AGI to ASI
2026年06月10日
过去十年间,构建人类水平的人工通用智能(AGI)已从遥不可及的臆想,转变为众多顶尖人工智能机构明确设定的“未来十年”核心目标。实现这一目标将对人类社会产生深刻而广泛的影响,由此引出大量亟待解答的复杂问题。本报告聚焦于后AGI时代人工智能自身的发展路径,探讨其如何沿着机器智能连续谱持续演进。该连续谱的终点——“通用人工智能”(Universal AI)——在理论上已有较为扎实的理解,这为本报告的核心议题提供了形式化基础:即从人类水平的AGI向人工通用超级智能(ASI)的过渡过程;直观而言,ASI指一种在智能水平与认知能力上全面超越大型人类组织的系统。在对ASI进行界定之后,本报告梳理了从AGI迈向ASI的四条潜在路径:AGI的规模扩展、人工智能范式的根本性转变、递归式自我改进,以及由大规模多智能体协同系统自然涌现ASI。随后,报告进一步分析了上述各路径中可能存在的摩擦阻力与关键瓶颈。判断这些阻力的影响究竟微乎其微还是举足轻重,本身便引出了若干亟待深入探索的具体开放性研究问题。鉴于预测ASI发展进程存在巨大不确定性,我们无法排除人工智能进步在未来数年内持续加速的可能性。这意味着,社会普遍设想的“人类水平AGI一经问世,便引发单一、突变式社会变革”的图景,或许并不准确;更贴切的前景反而是:人工智能赋能下的科学与技术各领域接连取得突破与进展,从而催生一系列渐次展开、相互交织的变革性社会转型。应对这一前景,需要一场覆盖全球、高度跨学科的宏大协作努力,其广度与重要性前所未有。
597
热度
许愿开讲
PDF
解读
SVGDreamer: Text Guided SVG Generation with Diffusion Model
2023年12月27日
最近,文本引导的可扩展矢量图形(SVG)合成在图标设计和素描等领域显示出了潜力。然而,现有的文本到SVG生成方法缺乏可编辑性,并且在视觉质量和结果多样性方面存在困难。为了解决这些限制,我们提出了一种新的文本引导矢量图形合成方法,称为SVGDreamer。SVGDreamer采用了一种语义驱动的图像矢量化(SIVE)过程,使合成分解为前景对象和背景,从而增强了可编辑性。具体而言,SIVE过程引入了基于注意力的原始控制和注意力掩码损失函数,以有效控制和操纵单个元素。此外,我们提出了一种基于矢量化粒子的分数蒸馏(VPSD)方法,以解决现有文本到SVG生成方法中存在的颜色过饱和、矢量基元过度平滑和结果多样性有限等挑战。此外,在VPSD的基础上,我们引入了奖励反馈学习(ReFL)来加速VPSD的收敛并提高美学吸引力。大量实验已经进行,以验证SVGDreamer的有效性,在可编辑性、视觉质量和多样性方面表现优于基线方法。SVGDreamer的代码和演示可以在\href{https://ximinng.github.io/SVGDreamer-project/}{https://ximinng.github.io/SVGDreamer-project/}找到。
488
热度
许愿开讲
PDF
解读