Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation

2024年07月19日
  • 简介
    数据到文本(D2T)生成旨在从半结构化数据(例如表格和图表)生成可读的人类文本。LLM的进步在很大程度上促成了D2T的成功。尽管LLM取得了成功,但还没有研究探讨模型大小对于D2T任务中经过微调的LLM性能的影响。通常基于三个关键品质对D2T模型性能进行评估:可读性(表示流畅性和连贯性)、信息量(衡量内容相似性)和忠实度(评估事实信息的一致性)。目前尚不确定增加LLM大小是否能够有效地提高D2T任务在这三个品质上的性能。本研究旨在通过广泛的比较分析,研究LLM模型大小对D2T任务中经过微调的LLM性能的影响。我们旨在阐明在五个广泛使用的D2T数据集(E2E、ViGGo、WikiTableText、DART和WebNLG)和来自五个不同LLM家族(T5、BART、OPT、BLOOM和Llama 2)的十二个具有不同大小的最先进的LLM中,扩展模型大小的优点和局限性。为了全面覆盖D2T模型的三个关键品质,我们结合了六个广泛认可的自动度量标准——BLEU、METEOR、BERTScore、MoverScore、Parent和BARTScore。我们还对LLM性能进行了深入分析,关注D2T任务中存在的源-参考差异这一关键方面。我们的研究发现,增加LLM大小可以提高D2T任务中的可读性和信息量,但更大的LLM(大小)可能会牺牲忠实度。此外,当存在源-参考差异时,小型LLM表现出更强的弹性。
  • 图表
  • 解决问题
    本论文旨在研究模型大小对D2T任务性能的影响,通过比较分析不同大小的LLMs在五个常用数据集上的表现,探讨LLM大小对D2T模型的三个关键质量(可读性、信息量、忠实度)的影响。
  • 关键思路
    通过实验发现,增加LLM的大小有助于提高D2T任务的可读性和信息量,但较大的LLM可能会牺牲忠实度。此外,当存在源参考差异时,小型LLMs表现更为韧性。
  • 其它亮点
    论文使用了六个广泛认可的自动度量标准来全面覆盖D2T模型的三个关键质量,设计了实验并使用了五个常用的数据集。此外,论文还提供了对LLM性能的深入分析,包括在存在源参考差异的情况下的表现。
  • 相关研究
    在相关研究方面,最近的研究集中在提高D2T任务的性能方面。其中一些论文包括:“E2E Challenge:从语言生成到目标响应”、“WikiTableQuestions:一个复杂的实时问答数据集”和“WebNLG:生成自然语言描述的语义网数据”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论