Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution

2024年08月20日
  • 简介
    表格数据是各个领域中普遍存在的一种数据类型,由于其异构性和复杂的结构关系,因此在分析表格数据时需要克服独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对于许多应用来说都具有重要的意义。受自然语言处理的最新进展,尤其是Transformer架构的影响,出现了新的表格数据建模方法。早期的技术集中于从头开始预训练Transformer,通常会遇到可扩展性问题。随后,开发了利用BERT等预训练语言模型的方法,这些方法需要更少的数据并产生更好的性能。最近出现的大型语言模型,如GPT和LLaMA,进一步革新了这个领域,以最小的微调促进了更先进和多样化的应用。尽管越来越受到关注,但缺乏针对表格数据的语言建模技术的全面调查。本文通过系统回顾表格数据的语言建模发展填补了这一空白,包括:(1)不同表格数据结构和数据类型的分类;(2)对模型训练和评估任务中使用的关键数据集的回顾;(3)建模技术的总结,包括广泛采用的数据处理方法、流行的架构和训练目标;(4)从传统的预训练/预训练语言模型适应到利用大型语言模型的演变;(5)确定语言建模在表格数据分析中持续存在的挑战和潜在的未来研究方向。与此调查相关的GitHub页面可在以下网址找到:https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。
  • 图表
  • 解决问题
    本文旨在系统回顾语言模型在表格数据分析中的发展,包括对不同表格数据结构和数据类型的分类,关键数据集的评估任务,广泛采用的数据处理方法、流行的架构和训练目标的总结,以及从传统预训练/预训练语言模型的适应到利用大型语言模型的演变。
  • 关键思路
    本文提出了一种利用预训练语言模型(如BERT、GPT和LLaMA)来处理表格数据的方法,相比于从头开始训练transformer,这种方法需要更少的数据并且具有更好的性能。
  • 其它亮点
    本文系统回顾了语言模型在表格数据分析中的发展,并提出了一种利用预训练语言模型来处理表格数据的方法。研究使用了多个数据集进行实验,并开源代码。未来的研究方向包括更好的处理非结构化数据、更好的模型解释性和更好的数据增强方法。
  • 相关研究
    最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT: Improving Language Understanding with Unsupervised Learning》和《LLaMA: Leveraging Language Models for Multimodal Attention》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论