PatentGPT: A Large Language Model for Intellectual Property

2024年04月28日
  • 简介
    近年来,大型语言模型由于在众多自然语言处理任务中表现出色,广泛应用于各个领域,受到了极大的关注。然而,在知识产权领域应用大型语言模型面临着挑战,因为这个领域需要专业知识、隐私保护和处理极长的文本。在这篇技术报告中,我们首次提出了一种低成本、标准化的程序,用于训练面向知识产权的语言模型,以满足知识产权领域的独特需求。利用这个标准化流程,我们基于开源预训练模型训练了 PatentGPT 系列模型。通过在开源的知识产权基准测试 MOZIP 上评估,我们的领域特定语言模型表现优于 GPT-4,表明所提出的训练程序的有效性以及 PatentGPT 模型在知识产权领域的专业知识。令人印象深刻的是,我们的模型在 2019 年中国专利代理资格考试中获得了 65 分的成绩,达到了人类专家的水平,显著优于 GPT-4。此外,采用 SMoE 架构的 PatentGPT 模型在知识产权领域的性能与 GPT-4 相当,并在长文本任务的成本性能比上表现更好,有望成为知识产权领域 GPT-4 的替代品。
  • 图表
  • 解决问题
    论文旨在解决在知识产权领域中应用大型语言模型的挑战,包括专业知识需求、隐私保护、处理极长文本等问题。
  • 关键思路
    论文提出了一个低成本、标准化的程序来训练知识产权领域的大型语言模型,使用开源预训练模型,采用SMoE架构,通过在MOZIP基准测试和2019年中国专利代理人资格考试中的表现,证明了该方法的有效性和专业性。
  • 其它亮点
    论文的亮点包括:使用了开源预训练模型,提出了标准化的训练程序,采用SMoE架构,在MOZIP基准测试和2019年中国专利代理人资格考试中表现优异。论文还提供了开源代码。
  • 相关研究
    近期在这个领域中的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论