SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task

2024年06月15日
  • 简介
    将大型语言模型(LLMs)与现有的知识图谱(KG)数据库集成,是增强LLMs效力和减轻其“幻觉”的一个有前途的途径。鉴于大多数KG都存储在图数据库中,只能通过专门的查询语言(例如Cypher)访问,因此需要自动化将自然语言转换为Cypher查询(通常称为“Text2Cypher”任务),以弥合LLMs和KG数据库之间的差距。以前的研究试图通过监督微调来增强LLMs在Cypher生成方面的熟练程度。然而,由于注释此类数据集的劳动强度和领域特定性质,这些探索受到了阻碍。在本研究中,我们提出了SyntheT2C方法,用于构建一个合成的查询-Cypher对数据集,包括两个不同的流水线:(1)基于LLM的提示和(2)模板填充。SyntheT2C促进了从底层Neo4j图数据库中采样值的广泛查询-Cypher对的生成。随后,SyntheT2C应用于两个医学数据库,最终创建了一个合成数据集MedT2C。全面的实验表明,MedT2C数据集有效地增强了Text2Cypher任务的骨干LLMs的性能。SyntheT2C代码库和MedT2C数据集很快将发布。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文旨在解决自然语言查询转Cypher查询的问题,通过构建一个合成数据集来提高大型语言模型在Text2Cypher任务上的性能。
  • 关键思路
    关键思路:本论文提出了一种名为SyntheT2C的方法,通过两个步骤生成合成数据集,包括使用基于LLM的提示和模板填充。这种方法有效地提高了大型语言模型在Text2Cypher任务上的性能。
  • 其它亮点
    其他亮点:本论文使用SyntheT2C方法在两个医学数据库上生成了一个合成数据集MedT2C,并展示了该数据集对大型语言模型在Text2Cypher任务上的性能提升。实验结果表明,MedT2C数据集可以有效地提高大型语言模型在Text2Cypher任务上的性能。
  • 相关研究
    相关研究:在类似的领域中,最近的相关研究包括基于监督微调的方法来提高大型语言模型在Cypher查询生成方面的性能。例如,Wang等人在2021年的论文中提出了一个基于远程监督的方法来生成Cypher查询。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问