CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models

2024年05月28日
  • 简介
    本文介绍了一种名为“基于上下文语言模型的精准填补方法”(CLAIM)的新策略,该策略利用预训练的大型语言模型(LLM)的广泛知识和推理能力来解决表格数据集中的缺失数据挑战。与传统的填补方法不同,传统方法主要依赖于数值估计,CLAIM利用上下文相关的自然语言描述符来填补缺失值。这种方法将数据集转换为自然语言上下文化格式,这种格式与LLM的能力更加契合,从而促进了LLM的双重使用:首先,生成缺失值描述符,然后,对丰富的数据集进行微调,以提高下游任务的性能。我们在各种数据集和缺失模式上的评估表明,CLAIM在现有填补技术上具有卓越的性能。此外,我们对上下文特定与通用描述符对缺失数据的有效性的研究突出了上下文准确性在增强LLM填补数据性能方面的重要性。结果强调了CLAIM在提高数据分析和机器学习模型的可靠性和质量方面的潜力,为处理缺失数据提供了更加细致和有效的解决方案。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决表格数据中的缺失值问题,并验证了一种新的基于自然语言描述符的填充方法的有效性。
  • 关键思路
    论文提出了一种新的策略,即使用预训练的大型语言模型(LLMs)的知识和推理能力来填充缺失值。该方法将数据集转换为自然语言上下文格式,更加符合LLMs的能力,从而实现LLMs的双重使用:首先生成缺失值描述符,然后在丰富的数据集上微调LLMs以提高下游任务的性能。
  • 其它亮点
    通过在不同的数据集和缺失模式上进行评估,论文证明了该方法比现有的填充方法具有更好的性能。此外,论文还探讨了针对缺失数据的具体描述符与通用描述符对LLMs性能提升的影响,并强调了上下文准确性对于提高数据填充的重要性。实验设计合理,论文提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《Deep Learning for Missing Value Imputation in Tables with Non-Numerical Data》和《A Survey on Handling Missing Data with Deep Learning》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问