简介

以ChatGPT、GPT-4等为代表的大语言模型(Large Language Model, LLM)掀起了新一轮自然语言处理领域的研究浪潮,展现出了类通用人工智能(AGI)的能力,受到业界广泛关注。在LLM大行其道的背景下,几乎所有的NLP任务都转化为了基于提示的语言生成任务。然而,在中文医学NLP社区中,尚未有一个统一任务形式的评测基准。

为推动LLM在医疗领域的发展和落地,华东师范大学计算机学院王晓玲教授团队联合阿里巴巴天池平台、复旦大学、复旦大学附属华山医院、东北大学、哈尔滨工业大学(深圳)、鹏城实验室与同济大学推出PromptCBLUE评测基准(https://github.com/michael-wzhu/PromptCBLUE)对CBLUE基准(https://tianchi.aliyun.com/dataset/95414)进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务形成首个中文医疗场景的LLM评测基准。PromptCBLUE将作为CCKS-2023的评测任务之一,已在阿里巴巴天池大赛平台上线进行开放评测,欢迎各位师生报名参赛(刷榜)。

注意:本评测虽然立足于医疗垂直领域,但是其所考察的仍然是大模型面向落地的通用能力与关键技术。欢迎对大模型感兴趣的所有研究人员参与本次评测。

任务介绍

我们采用94个指令微调模板,对CBLUE基准中的各个任务进行改造。经过改造后,医疗文本NLP数据集都将转化为如下格式:input字段是模型的输入,target字段是模型的输出,type是原任务类型(不作为模型输入),answer_choices字段是选项,只有分类、术语标准化、推理类任务上该字段才会有意义。

{
"input": str,
"target": str,
"type": str,
"answer_choices": str,
"sample_id": str,
}

为了将CBLUE中的各种不同任务适配为符合LLM的输入输出格式,我们对CBLUE各个数据集进行了相应的改造。详见CBLUE任务改造。在本文中我们仅举两个例子:

CMeEE任务

本任务原本是标准的医学文本NER任务,选手需要给出医学实体mention在待抽取文本中的具体span位置。在PromptCBLUE中,本任务被改造为:根据指定的实体类型,生成实体mention。在评分时,我们只考虑实体mention及其类型标签,不再考虑span位置信息。而且,特别注意的是,为了考察模型的指令理解与服从能力(instruction following),模型只能生成指令中指定的实体类型,而不能生成其他类型的实体。样例如下:

{
"input": "医学实体识别:\n外周血白细胞计数常明显升高,伴核左移。\n实体选项:疾病,医学检验项目,医院科室,身体部位,微生物类,临床表现,药物\n答:",
"target": "上述句子中的实体包含:\n医学检验项目实体:外周血白细胞计数\n疾病实体:\n医院科室实体:\n药物实体:\n微生物类实体:",
"answer_choices": ["疾病", "医学检验项目", "医院科室", "身体部位", "微生物类", "临床表现", "药物"],
"task_type": "ner",
"task_dataset": "CMeEE-V2",
"sample_id": "train-134372"
}

上述样例中的target即为模型输出,而评测参与者需要根据自己的LLM输出进行解析,得到抽取结果。LLM输出的格式可以自己定义,也可以根据我们的样例来进行。

CHIP-CDN任务

CHIP-CDN任务在CBLUE中的原型是:给定一诊断原词,要求给出其对应的诊断标准词,而诊断标准词是从ICD-10这一个4w+的标准词库中选择。由于我们不可能一次性将四万个词输入到LLM中(即使是GPT-4服务,最多只能输入32000个token),所以我们将CDN任务改造为:给定原词,从候选的若干个ICD-10诊断标准词中选择出匹配的词(可能有多个, 可能一个都没有)。而在实际业务中,我们可以结合对本地知识库的检索+LLM判断的方式,完整的预测诊断原词对应的诊断标准词。

{
"input": "主动脉弓缩窄心功能低下\n归一化后的标准词是?\n实体选项:胫前动脉假性动脉瘤,主动脉缩窄,男性性腺功能低下,男性性腺功能低下,垂体功能低下,心功能不全\n说明:从候选的若干个ICD-10诊断标准词中选择出与原诊断描述匹配的词\n答:",
"target": "主动脉缩窄,心功能不全",
"answer_choices": ["胫前动脉假性动脉瘤", "主动脉缩窄", "男性性腺功能低下", "男性性腺功能低下", "垂体功能低下", "心功能不全"],
"task_type": "normalization",
"task_dataset": "CHIP-CDN",
"sample_id": "train-17932"
}

赛程安排

赛程 时间
评测任务发布 2023/5/4
报名时间 2023/5/4 - 2023/7/13 17:59:59
训练集,验证集发布;baseline模型/代码发布 2023/5/10
测试A榜数据(测试集A)发布 2023/5/10
测试A榜评测截止 2023/7/13 17:59:59
测试B榜数据(测试集B)发布 2023/7/14
测试B榜最终测试结果提交截止 2023/7/17 17:59:59
公布测试结果 2023/7/28
参与评奖队伍审核材料提交 2023/8/5 23:59:59
评测论文提交 2023/8/11 23:59:59
CCKS会议 (评测报告及颁奖) 2023/8/24-2023/8/27

报名方式

考虑到目前的LLM训练可能涉及商业数据,大规模模型开源受到各种外在条件的限制,我们将对PromptCBLUE评测开放两个赛道:

  • 通用赛道:接受来自企业,高校,开源社区,各类研究团队或者个人对自研的LLM进行评测,不需要开源其模型。
  • 开源赛道:接受各类参赛团队提交评测,但是其必须使用开源的大模型底座,且只能使用开源的或者可以全部提交至比赛组织方审核的数据集进行训练/微调。

本次评测依托于天池平台,参赛选手在天池平台选择自己想参加的赛道,进行注册报名即可。参赛选手报名后可在“我的团队”页面组队。每支队伍需指定一名队长,队伍成员总数最多不超过4人;报名截止日期之后不允许更改队伍成员名单,请谨慎选择队员组队。每名参赛选手只能参加一支队伍,一支队伍可以即参加PromptCBLUE评测的“通用赛道”也可以参加“开源赛道”。但是在评选奖励时,一只队伍只能选择一个赛道参与评奖。

评测入口:

  • 通用赛道:https://tianchi.aliyun.com/competition/entrance/532085/introduction
  • 开源赛道:https://tianchi.aliyun.com/competition/entrance/532084/introduction

报名成功后搜索钉钉群号 30560025118,或扫描以下二维码加入评测交流群:

   

比赛奖励

PromptCBLUE评测设置总奖励池16000元,奖金设置如下:

  • 冠军奖:人民币3,000元,2名,分别奖励两个赛道获得最优总得分的团队。
  • 亚军奖:人民币2,000元,2名,分别奖励两个赛道总得分排名第二的团队。
  • 季军奖:人民币1,000元,2名,分别奖励两个赛道总得分排名第三的团队。
  • 创新奖:人民币1,000元,4名,奖励在PromptCBLUE评测中采用了最为创新的方法并且成绩突出的团队。

欢迎广大同行,老师们,同学们一起加入到中文大模型,特别是中文医疗垂直领域大模型的建设与落地中,推进中文医疗信息处理领域的进一步发展。

周边资源

同时,为辅助LLM在医疗领域的各项能力提升,我们同时开源以下数据/代码/模型资源供参赛者使用:

  • 🚀 中文医疗在线问诊数据集ChatMed_Consult_Dataset(https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset):包含50w+在线问诊+ChatGPT回复。
  • 🚀 中文问诊大模型ChatMed-Consult(https://github.com/michael-wzhu/ChatMed): 以中文医疗在线问诊数据集ChatMed_Consult_Dataset作为微调训练集。模型主干为LlaMA-7b,融合了Chinese-LlaMA-Alpaca的LoRA权重与中文扩展词表,然后再进行基于LoRA的参数高效微调。我们将全部数据和代码都进行了公开。
我们将会持续更新和开源各种以中文医学知识图谱为源泉,大模型为核心的各种数据/代码/模型资源,欢迎持续关注中文医疗大模型项目ChatMed(https://github.com/michael-wzhu/ChatMed)
 

中文医疗大模型项目ChatMed二维码
 
关于ICALK
ICALK (Language cognition and Knowledge computing at the Institute of Computer Applications)是华东师大计算机学院“语言认知与知识计算”团队,主要聚焦认知理论和方法,突破语言理解、知识生成与因果推理相关理论,研究类人阅读、思考与对话生成相关的NLP技术和知识库构建等关键技术,通过“知识理解力的增强”来提升应用智能,相关研究成果已成功在教育、健康、科技、JS、金融、城市管理等领域中成功落地。

 

团队召集人:贺樑教授,现任“国家科技创新2030新一代人工智能重大项目”管理专家组成员。

各方向召集人:

  • 知识计算:林欣教授

  • 语言认知:兰曼教授

  • 智能知识管理与服务:王晓玲教授

  • 交叉智能应用:窦亮副教授、马天龙助理研究员

 
参考文献
  • Ningyu Zhang, Mosha Chen, Zhen Bi, Xiaozhuan Liang, Lei Li, Xin Shang, Kangping Yin, Chuanqi Tan, Jian Xu, Fei Huang, Luo Si, Yuan Ni, Guotong Xie, Zhifang Sui, Baobao Chang, Hui Zong, Zheng Yuan, Linfeng Li, Jun Yan, et al.. 2022. CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7888–7915, Dublin, Ireland. Association for Computational Linguistics.
  • Zan, Hongying, Wenxin Li, Kunli Zhang, Yajuan Ye, Baobao Chang and Zhifang Sui. “Building a Pediatric Medical Corpus: Word Segmentation and Named Entity Annotation.” Chinese Lexical Semantics (2020).
  • Guan, Tongfeng, Hongying Zan, Xiabing Zhou, Hongfei Xu and Kunli Zhang. “CMeIE: Construction and Evaluation of Chinese Medical Information Extraction Dataset.” Natural Language Processing and Chinese Computing (2020).
  • Zong, Hui, Jinxuan Yang, Zeyu Zhang, Zuofeng Li and Xiaoyan Zhang. “Semantic categorization of Chinese eligibility criteria in clinical trials using machine learning methods.” BMC Medical Informatics and Decision Making 21 (2021): n. pag.
  • Liu, Wenge, Jianheng Tang, Jinghui Qin, Lin Xu, Zhuguo Li and Xiaodan Liang. “MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System.” ArXiv abs/2010.07497 (2020): n. pag.
  • Chen, W., Zhiwei Li, Hongyi Fang, Qian-Qian Yao, Cheng Zhong, Jianye Hao, Qi Zhang, Xuanjing Huang, Jianjun Peng and Zhongyu Wei. “A benchmark for automatic medical consultation system: frameworks, tasks and datasets.” Bioinformatics 39 (2022): n. pag.
  • Chen, W., Cheng Zhong, Jiajie Peng and Zhongyu Wei. “DxFormer: a decoupled automatic diagnostic system based on decoder–encoder transformer with dense symptom representations.” Bioinformatics 39 (2022): n. pag.
  • Wei, Zhongyu, Qianlong Liu, Baolin Peng, Huaixiao Tou, Ting Chen, Xuanjing Huang, Kam-Fai Wong and Xiangying Dai. “Task-oriented Dialogue System for Automatic Diagnosis.” Annual Meeting of the Association for Computational Linguistics (2018).
  • Lin, Xinzhu, Xiahui He, Qin Chen, Huaixiao Tou, Zhongyu Wei and Ting Chen. “Enhancing Dialogue Symptom Diagnosis with Global Attention and Symptom Graph.” Conference on Empirical Methods in Natural Language Processing (2019).
  • Liao, Kangenbei, Qianlong Liu, Zhongyu Wei, Baolin Peng, Qin Chen, Weijian Sun and Xuanjing Huang. “Task-oriented Dialogue System for Automatic Disease Diagnosis via Hierarchical Reinforcement Learning.” ArXiv abs/2004.14254 (2020): n. pag.
  • Long, Dingkun, Qiong Gao, Kuan-sheng Zou, Guangwei Xu, Pengjun Xie, Rui Guo, Jianfeng Xu, Guanjun Jiang, Luxi Xing and P. Yang. “Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (2022): n. pag.
  • 熊英,陈漠沙,陈清财,汤步洲.CHIP-2021评测任务1概述:医学对话临床发现阴阳性判别任务[J].医学信息学杂志,2023,44(3):46~51
  • 骆迅,倪渊,汤步洲,雷健波. 基于竞赛视角探讨文本语义匹配技术在中文医学文本领域中的应用 [J]. 中国数字医学. 2021 (11)
  • 李文锋,朱威,王晓玲,等.Text2DT:面向临床针对文本的决策规则抽取技术[J].医学信息学杂志,2022,43(12):16-22.