
报告主题:在合成数据上继续预训练|Scaling beyond real data constraint
报告日期:10月16日(周三)10:30-11:30
报告要点:
在大规模的互联网文本上进行预训练的方式使得语言模型能够获取大量的知识。然而这种知识获取方式的非常低效——为了学习一个特定的知识,模型必须在成百上千个关于该知识的表述上进行训练。这使得预训练很难让模型学会文本量较小的领域,因为在关于这些领域的语料库中,每个知识可能只出现一次或极少次。为了解决这个挑战,我们提出通过合成数据来继续预训练:利用小规模的领域特定语料库合成一个更大的、更适合学习的语料库,然后在合成语料库上继续进行预训练。
报告嘉宾:
杨紫童,斯坦福大学自然语言处理组的博士生,师从Tatsunori Hashimoto和Emmanuel Candès教授。他的研究兴趣主要集中在如何让大语言模型超越人类数据的指导。在加入斯坦福之前,杨紫童在加州大学伯克利分校就读,在Jacob Steinhardt和马毅教授的指导下研究人工智能的统计基础。他在伯克利获得了数学、物理和计算机科学三个学士学位,以及电子工程硕士学位。在业界,杨紫童曾就职于谷歌人工智能部门,研究检索增强语言模型。他还在苹果公司参与了苹果大语言模型的研究工作。此前,他在一家量化对冲基金工作,研究人工智能在金融领域的应用。他的个人网页是 https://zitongyang.github.io/

扫码报名
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢