TIFG: Text-Informed Feature Generation with Large Language Models

2024年06月17日
  • 简介
    数据的文本信息对于数据挖掘和特征工程至关重要。然而,现有的方法侧重于学习数据结构,忽视了文本信息。因此,它们浪费了这个宝贵的资源,错过了嵌入在文本中的更深层次的数据关系。本文介绍了一种新颖的基于LLM的文本信息特征生成框架——Text-Informed Feature Generation (TIFG)。TIFG利用文本信息通过检索可能与外部知识相关的特征来生成特征,采用检索增强生成(RAG)技术。在这种方法中,TIFG可以生成新的可解释特征来丰富特征空间,并进一步挖掘特征关系。我们设计TIFG为自动化框架,不断优化特征生成过程,适应新的数据输入,并在迭代中提高下游任务的性能。在各种下游任务中进行的广泛实验表明,我们的方法可以生成高质量和有意义的特征,并且明显优于现有方法。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有方法忽略文本信息对数据挖掘和特征工程的重要性,从而浪费了宝贵的资源并错过了深层次的数据关系的问题。
  • 关键思路
    本文提出了一种新颖的基于LLM的文本信息特征生成框架TIFG,通过Retrieval Augmented Generation(RAG)技术利用文本信息生成特征。TIFG可以生成新的可解释特征,丰富特征空间,并进一步挖掘特征关系。
  • 其它亮点
    论文设计了TIFG作为自动化框架,不断优化特征生成过程,适应新的数据输入,并通过实验展示了TIFG可以生成高质量、有意义的特征,并且明显优于现有方法。
  • 相关研究
    最近的相关研究包括:1.《Deep Learning for Text Classification: A Comprehensive Review》;2.《A Survey on Deep Learning for Named Entity Recognition》;3.《A Review of Deep Learning Models for Natural Language Processing》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问