GIST(Greedy Independent Set Thresholding)是一种新型子集选择算法,旨在从大规模数据集中高效选取兼具高多样性与高实用性的代表性子集,以支持模型训练(非微调)。面对大语言模型和计算机视觉等场景中数据规模激增、处理成本高昂的挑战,GIST通过理论可证明的优化机制,在保证信息充分性的同时显著降低计算开销。该算法在NeurIPS 2025上提出,兼顾数据冗余控制(多样性)与任务相关性(实用性),为高效、可靠的数据子集选择提供了新范式。
本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢