每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Scaling and evaluating sparse autoencoders
2024年06月06日
稀疏自编码器提供了一种有前途的无监督方法,通过从稀疏瓶颈层中重建激活来从语言模型中提取可解释的特征。由于语言模型学习了许多概念,自编码器需要非常大才能恢复所有相关特征。然而,由于需要平衡重建和稀疏性目标以及存在死亡潜在因素,研究自编码器的缩放属性是困难的。我们提出使用k-稀疏自编码器[Makhzani和Frey,2013]来直接控制稀疏性,简化调整并改善重建-稀疏性前沿。此外,我们发现修改后即使在我们尝试的最大规模下也会产生很少的死亡潜在因素。使用这些技术,我们发现自编码器大小和稀疏性与自编码器规模和稀疏性之间存在清晰的缩放规律。我们还引入了几个新的评估特征质量的指标,基于假设特征的恢复,激活模式的可解释性以及下游效果的稀疏性。这些指标通常随着自编码器大小的增加而改善。为了展示我们方法的可扩展性,我们使用GPT-4激活在40亿个标记上对1600万个潜在自编码器进行了训练。我们发布了开源模型的训练代码和自编码器,以及可视化工具。
678
热度
许愿开讲
PDF
解读
SimpleFold: Folding Proteins is Simpler than You Think
2025年09月23日
蛋白质折叠模型通常通过将领域知识融入架构模块和训练流程,取得了突破性成果。然而,鉴于生成模型在其他相关问题上已取得成功,人们自然会质疑这些特定的架构设计是否是构建高性能模型的必要条件。本文提出了SimpleFold,这是首个基于流匹配(flow-matching)的蛋白质折叠模型,仅使用通用的Transformer模块。传统的蛋白质折叠模型通常采用计算成本高昂的模块,例如三角更新、显式的残基对表示,或针对该领域精心设计的多个训练目标。相比之下,SimpleFold仅使用标准的Transformer模块并结合自适应层,并通过一个包含额外结构项的生成式流匹配目标进行训练。我们将SimpleFold扩展至30亿参数,并在约900万个蒸馏得到的蛋白质结构数据以及实验PDB数据上进行了训练。在标准折叠基准测试中,SimpleFold-3B的表现与当前最先进的基线模型相当;此外,SimpleFold在集成预测方面表现出色,而这一点对于采用确定性重构目标训练的模型而言通常是难以实现的。得益于其通用架构,SimpleFold在消费级硬件上的部署和推理过程均展现出较高的效率。SimpleFold挑战了蛋白质折叠领域对复杂、特定领域架构的依赖,为未来的发展开辟了一种全新的设计思路。
626
热度
许愿开讲
PDF
解读
Empowering LLMs to Understand and Generate Complex Vector Graphics
2024年12月15日
大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远影响,但尚未完全涉足可缩放矢量图形(SVG)生成领域。虽然在训练过程中,LLMs从网页中编码了部分SVG数据知识,但最近的研究表明,LLMs内部语义模糊且分词化的表示可能导致矢量图元预测中的幻觉现象。此外,LLM训练通常缺乏对矢量路径渲染顺序的建模和理解,这可能导致输出矢量图元之间的遮挡问题。在本文中,我们介绍了LLM4SVG,这是朝着弥合这一差距迈出的初步但重要的一步,旨在使LLMs更好地理解和生成矢量图形。LLM4SVG通过可学习的语义标记促进了对SVG组件的更深入理解,这些标记精确地编码了这些标记及其相应属性,以生成语义对齐的SVG输出。利用一系列可学习的语义标记,开发了一个结构化的指令跟随数据集,支持两个主要任务的理解和生成。我们的方法在现有的大型语言模型中引入了模块化架构,集成了语义标签、矢量指令编码器、微调命令和强大的LLMs,将几何、外观和语言信息紧密结合。为了解决SVG-文本指令数据稀缺的问题,我们开发了一条自动化数据生成管道,收集了超过25万个SVG数据和58万个SVG-文本指令的大规模数据集,这有助于采用在LLM开发中流行的两阶段训练策略。通过探索各种训练策略,我们开发了LLM4SVG,该模型显著超越了基于优化渲染的方法和基于语言模型的基线,在人类评估任务中取得了显著成果。
567
热度
许愿开讲
PDF
解读
4.5 Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Scams, and Malware
2024年12月18日
GitHub 是事实上的开源软件开发平台,提供了一套类似社交媒体的功能来标示高质量的仓库。其中,星标数量是最广泛使用的受欢迎度指标,但也存在被人为虚增(即造假)的风险,这降低了其作为决策信号的价值,并对所有 GitHub 用户构成安全威胁。在本文中,我们对 GitHub 上的假星标进行了系统性、全球性和纵向的测量研究。为此,我们构建了 StarScout,这是一种可扩展的工具,能够检测整个 GitHub 元数据中的异常星标行为(即低活跃度和同步行为)。通过分析使用 StarScout 收集的数据,我们发现:(1)自 2024 年以来,与假星标相关的活动迅速增加;(2)假星标用户的特征与普通 GitHub 用户没有显著区别,但许多用户表现出高度异常的活动模式;(3)大多数假星标用于推广短命的恶意软件仓库,这些仓库伪装成盗版软件、游戏作弊工具或加密货币机器人;(4)一些仓库可能为了增长黑客而获取假星标,但假星标仅在短期内(即不到两个月)有推广效果,长期来看则成为负担。我们的研究对平台管理员、开源从业者和供应链安全研究人员具有重要意义。
460
热度
许愿开讲
PDF
解读