- 简介大型语言模型(LLMs)在各种自然语言处理任务中表现出色,包括在西方医学领域中的表现。然而,LLMs的专业评估标准尚未涵盖传统中医领域,该领域具有悠久的历史和广泛的影响。为了填补这一研究空白,我们介绍了TCM-Bench,这是一个全面评估LLM在中医领域表现的基准。它包括TCM-ED数据集,其中包含5,473个问题,来源于中医执业医师考试(TCMLE),其中包括1,300个具有权威分析的问题。它涵盖了TCMLE的核心组成部分,包括中医基础和临床实践。为了评估LLMs的答案质量,我们提出了TCMScore,这是一个针对评估LLMs生成的中医相关问题答案质量的度量标准。它全面考虑了中医语义和知识的一致性。通过从多个角度进行综合实验分析,我们得出以下结论:(1)LLMs在这个基准测试中的表现不尽人意,突显了它们在中医领域需要改进的重要空间。(2)引入领域知识可以提高LLMs的性能。然而,对于像中经-TCM这样的领域内模型,生成的分析文本质量下降,我们假设它们的微调过程影响了基本LLM能力。(3)文本生成质量的传统度量标准,如Rouge和BertScore,容易受到文本长度和表面语义歧义的影响,而领域特定的度量标准,如TCMScore,可以进一步补充和解释评估结果。这些发现突显了LLMs在中医领域的能力和局限性,并旨在为医学研究提供更深入的帮助。
- 图表
- 解决问题本论文旨在解决中医领域缺乏大型语言模型(LLM)的评估标准的问题,提出了TCM-Bench数据集和TCMScore评估指标,以评估LLM在中医领域的表现。
- 关键思路论文的关键思路是引入TCM-Bench数据集和TCMScore评估指标,以评估LLM在中医领域的表现。同时,论文还探讨了引入领域知识对LLM性能的影响,并提出了领域特定的评估指标。
- 其它亮点论文提出了TCM-Bench数据集和TCMScore评估指标,以评估LLM在中医领域的表现。实验结果表明,LLM在中医领域的表现有待提高。同时,引入领域知识可以提高LLM的性能,但对于像ZhongJing-TCM这样的领域内模型,生成的分析文本质量下降。此外,传统的文本生成质量指标易受文本长度和表面语义歧义的影响,而领域特定的指标可以进一步补充和解释评估结果。
- 最近的相关研究包括使用BERT模型进行中医问答的研究和中医药知识图谱构建的研究。
沙发等你来抢
去评论
评论
沙发等你来抢