报告主题:在合成数据上继续预训练|Scaling beyond real data constraint

报告日期:10月16日(周三)10:30-11:30

报告要点:

在大规模的互联网文本上进行预训练的方式使得语言模型能够获取大量的知识。然而这种知识获取方式的非常低效——为了学习一个特定的知识,模型必须在成百上千个关于该知识的表述上进行训练。这使得预训练很难让模型学会文本量较小的领域,因为在关于这些领域的语料库中,每个知识可能只出现一次或极少次。为了解决这个挑战,我们提出通过合成数据来继续预训练:利用小规模的领域特定语料库合成一个更大的、更适合学习的语料库,然后在合成语料库上继续进行预训练。

我们通过EntiGraph(实体知识图谱)实现了这一方法,EntiGraph是一种合成数据的方法,它从源文档中提取显著实体,然后通过在采样实体之间建立联系来生成多样化的文本。在合成数据上继续预训练使语言模型能够回答与源文档相关的问题并遵循通用指令,而无需在推理时访问这些文档。即使在推理时可以使用源文档,这种方法获得的知识可以与RAG(检索增强生成)相结合。为了更好地理解这些结果,我们构建了一个EntiGraph的简单数学模型,并展示了合成数据增强如何"重新排列"知识以实现更高效的学习。

报告嘉宾:

杨紫童,斯坦福大学自然语言处理组的博士生,师从Tatsunori Hashimoto和Emmanuel Candès教授。他的研究兴趣主要集中在如何让大语言模型超越人类数据的指导。在加入斯坦福之前,杨紫童在加州大学伯克利分校就读,在Jacob Steinhardt和马毅教授的指导下研究人工智能的统计基础。他在伯克利获得了数学、物理和计算机科学三个学士学位,以及电子工程硕士学位。在业界,杨紫童曾就职于谷歌人工智能部门,研究检索增强语言模型。他还在苹果公司参与了苹果大语言模型的研究工作。此前,他在一家量化对冲基金工作,研究人工智能在金融领域的应用。他的个人网页是 https://zitongyang.github.io/

扫码报名

内容中包含的图片若涉及版权问题,请及时与我们联系删除