- 简介我们介绍了放射治疗自然语言处理数据库(ROND),这是放射治疗领域的第一个专门的自然语言处理数据集。过去,这个重要的医学专业受到自然语言处理社区的关注很少。随着人工通用智能(AGI)的出现,需要专门的数据集和基准来促进研究和发展。ROND专门设计来填补放射治疗领域中这一空白,这个领域为自然语言处理探索提供了许多机会。它涵盖了各种自然语言处理任务,包括逻辑推理、文本分类、命名实体识别(NER)、问答、文本摘要和患者-临床医生对话等,每个任务都有着不同的重点放射治疗概念和应用案例。此外,我们还开发了一个指令调整数据集,包含超过20k个指令对(基于ROND),并训练了一个大型语言模型CancerChat。这有助于展示在高度专业化的医学领域内指令调整大型语言模型的潜力。本研究的评估结果可以作为未来研究的基准结果。ROND旨在通过提供一个特定领域的上下文环境中测试和改进算法和模型的平台,来促进放射治疗和临床自然语言处理的进步。ROND数据集是多个美国医疗机构的联合努力。数据可在https://github.com/zl-liu/Radiation-Oncology-NLP-Database上获得。
- 图表
- 解决问题本论文旨在解决放射肿瘤学领域缺乏自然语言处理(NLP)数据集的问题,提供一个专门针对放射肿瘤学的NLP数据集和基准模型。
- 关键思路该论文提出了放射肿瘤学自然语言处理数据库(ROND),包括逻辑推理、文本分类、命名实体识别、问答、文本摘要和患者-临床医生对话等多个NLP任务。研究人员还使用ROND构建了一个指令调整数据集,并训练了一个大型语言模型CancerChat。
- 其它亮点本论文提供了一个专门针对放射肿瘤学的NLP数据集和基准模型,为放射肿瘤学和临床NLP的研究和发展提供了平台。研究人员还开源了数据集和代码。实验结果表明,该模型在ROND数据集上表现出色,可作为未来研究的基准结果。
- 最近的相关研究包括:1.使用NLP技术进行临床文本挖掘的研究;2.医疗保健领域NLP应用的综述文章。
沙发等你来抢
去评论
评论
沙发等你来抢