INDUS: Effective and Efficient Language Models for Scientific Applications

Bishwaranjan Bhattacharjee ,
Aashka Trivedi ,
Masayasu Muraoka ,
Muthukumaran Ramasubramanian ,
Takuma Udagawa ,
Iksha Gurung ,
Rong Zhang ,
Bharath Dandala ,
Rahul Ramachandran ,
Manil Maskey ,
Kaylin Bugbee ,
Mike Little ,
Elizabeth Fancher ,
Lauren Sanders ,
Sylvain Costes ,
Sergi Blanco-Cuaresma ,
Kelly Lockhart ,
Thomas Allen ,
Felix Grezes ,
Megan Ansdell ,
Alberto Accomazzi ,
Yousef El-Kurdi ,
Davis Wertheimer ,
Birgit Pfitzmann ,
Cesar Berrospi Ramis ,
Michele Dolfi ,
Rafael Teixeira de Lima ,
Panagiotis Vagenas ,
S. Karthik Mukkavilli ,
Peter Staar ,
Sanaz Vahidinia ,
Ryan McGranaghan ,
Armin Mehrabian ,
Tsendgar Lee
2024年05月17日
  • 简介
    本文介绍了大型语言模型(LLMs)在自然语言处理(NLP)任务上的出色表现,但是先前的研究表明,使用面向特定领域的语料库训练的LLMs在专业任务上表现更好。在这个重要的洞察力的启发下,作者开发了INDUS,这是一个针对地球科学、生物学、物理学、日球物理学、行星科学和天体物理学领域量身定制的LLMs综合套件,并使用从多个数据源收集的策划科学语料库进行训练。该套件包括:(1)一个编码器模型,使用特定于领域的词汇和语料库进行训练,以解决自然语言理解任务;(2)一种基于对比学习的通用文本嵌入模型,使用从多个来源收集的各种数据集进行训练,以解决信息检索任务;(3)使用知识蒸馏技术创建的这些模型的较小版本,以解决具有延迟或资源限制的应用程序。作者还创建了三个新的科学基准数据集,分别是CLIMATE-CHANGE-NER(实体识别)、NASA-QA(抽取式问答)和NASA-IR(信息检索),以加速这些多学科领域的研究。最后,作者展示了我们的模型在这些新任务以及感兴趣领域的现有基准任务上优于通用编码器(RoBERTa)和现有的领域特定编码器(SciBERT)。
  • 图表
  • 解决问题
    本文旨在解决使用通用语料库训练的大型语言模型在特定领域的自然语言处理任务上表现不佳的问题,提出了使用领域特定语料库训练的大型语言模型来提高在地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域的自然语言处理任务的表现。
  • 关键思路
    本文提出了使用领域特定语料库训练的大型语言模型来提高在特定领域的自然语言处理任务的表现,包括使用特定词汇和语料库训练的编码器模型、使用对比学习的通用文本嵌入模型以及使用知识蒸馏技术创建的小型模型。同时,本文还创建了三个新的科学基准数据集,旨在加速多学科领域的研究。
  • 其它亮点
    本文的实验结果表明,与通用编码器(RoBERTa)和现有的领域特定编码器(SciBERT)相比,使用本文提出的模型在新任务和现有基准任务中都表现更好。本文还开源了所使用的数据集和代码,为相关研究提供了帮助。
  • 相关研究
    最近的相关研究包括使用领域特定语料库训练的大型语言模型、使用对比学习的文本嵌入模型等。其中,SciBERT是一种常见的领域特定编码器模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论