Large scale paired antibody language models

简介

抗体是免疫系统产生的蛋白质，可以高度特异性和亲和力地识别和中和各种抗原，是最成功的生物治疗药物类别。随着下一代测序技术的出现，近年来已经收集了数十亿个抗体序列，但是由于数据的数量和复杂性，其在设计更好的治疗药物方面的应用受到了限制。为了解决这个挑战，我们提出了迄今为止表现最佳的抗体特异性语言模型IgBert和IgT5，可以一致地处理成对和未成对的可变区域序列作为输入。这些模型是全面训练的，使用Observed Antibody Space数据集中的超过20亿个未成对序列和200万个轻重链成对序列。我们展示了我们的模型在与抗体工程相关的各种设计和回归任务上，优于现有的抗体和蛋白质语言模型。这一进展标志着利用机器学习、大规模数据集和高性能计算增强抗体设计以进行治疗开发迈出了重要的一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决抗体设计中数据量大、复杂度高的问题，通过使用IgBert和IgT5等新的抗体特定语言模型，提高抗体工程的设计和回归任务的性能。
关键思路

使用IgBert和IgT5等新的抗体特定语言模型，可以更好地处理成对和未成对的可变区域序列，从而提高抗体设计和回归任务的性能。
其它亮点

论文使用超过20亿个未成对序列和200万个成对的轻重链序列进行全面训练，展示了IgBert和IgT5等新模型在抗体工程相关的设计和回归任务中的优越性能。值得关注的是，这些模型的设计和训练是基于大规模数据集和高性能计算的，这标志着人工智能、大规模数据集和高性能计算在抗体设计中的应用迈出了重要的一步。
相关研究

最近的相关研究包括使用深度学习方法进行抗体序列分析和设计的研究，如“DeepCDR”和“AbDesign”。

Large scale paired antibody language models

提问交流

提问交流