2022 年 1 月 20 日贝勒大学和厦门大学的研究人员在《BMC Bioinformatics volume》上发表题为「The challenges of explainable AI in biomedical data science」的观点文章,全文如下。
随着生物医学数据科学的兴起,越来越多的人工智能技术被用于发现知识、揭示潜在的数据行为、产生新的洞察力,并在决策中寻求最佳策略。
几乎所有不同的生物医学数据科学领域都提出和开发了不同的人工智能方法,包括药物发现、电子病历(EMR)数据自动化、单细胞 RNA 测序、早期疾病诊断、COVID 研究和医疗保健分析。
人工智能的方法和系统也产生了大量的数据或大数据,不仅给生物医学领域带来了前所未有的进步,也给人工智能带来了新的挑战。
关键挑战之一应该是人工智能在生物医学数据科学问题解决中的可解释性。它指的是一种人工智能方法或系统不仅要带来好的结果,还要具有良好的可解释性,即让用户知道为什么这种方式是最优的。
生物医学数据科学中采用的现有 AI 方法通常缺乏良好的可解释性,并且可能无法很好地在使用中创造可信赖性和透明度。例如,深度学习模型可以通过分析相应的生物图像来为疾病诊断带来良好的准确性,但很难很好地解释模型中数千个参数的设置。参数的一些小扰动可能会产生完全不同的学习结果,这对深度学习模型的稳健性和稳定性带来挑战。
由于人工智能模型不能很好地解释自己,即使它在准确性、速度或复杂的数据关系揭示方面具有优势,也可能会面临做出错误决策的高风险,并降低其可信度和可靠性。
另一方面,在生物医学数据科学的某些子领域(如生物信息学)中,人工智能解释问题已在近十年前提出。例如,生物信息学家发现,AI疾病诊断系统推荐的基因标记或网络标记可能无法自我解释;即识别的标记不仅不能在临床实践中很好地应用,而且 AI 系统可能不会推荐那些在临床实践中表现良好的标记。
即使在相同的数据集下,不同的方法也可能生成完全不同的网络标记。尽管疾病复杂性和组学数据的高度非线性可能是造成这种情况的原因,但另一个重要原因应该是系统中使用的 AI 方法缺乏足够的可解释性和透明度,从而以黑盒方式生成不同的解决方案。
因此,迫切需要开发可解释的人工智能(XAI),它可以更透明地为从业者或研究人员提供可靠的结果,以及对「为什么有效」的良好解释,而不仅仅是「有效」。此外,由于其特殊的主题和应用领域,生物医学数据科学可能需要更高的人工智能方法的可解释性和透明度标准。
在医疗保健、药物发现或疾病诊断中相信不透明的人工智能方法的结果可能很难甚至是危险的,因为不透明可能是有害且不可预测的。
然而,在生物医学数据科学中实现可解释的人工智能存在挑战。我们主要从人工智能方法定制、非线性数据、解决问题的复杂性和学习偏差的角度来解决它。
首先,几乎所有最先进的人工智能技术都不是针对生物医学数据开发的。相反,它们起源于计算机视觉、图像识别、自动推理、认知,甚至统计。以可解释的方式将现有的 AI 技术迁移到生物医学数据科学可能具有挑战性。AI 方法应该针对单个数据集进行定制甚至修改,以代表良好的性能和解释,而不是简单地应用它们。然而,这样的定制过程可能不会在短时间内轻易实现,因为没有成熟的人工智能理论来指导它,并且所需的可解释程度会因不同的应用领域而异。
其次,生物医学数据科学包括各种类型的海量数据,包括测序数据、高维组学数据、文本、EMR 和生物图像数据。数据的大小、非线性和复杂性以及生物学上复杂的问题(其中大部分与疾病相关)有时会迫使 AI 方法在良好的性能和良好的可解释性之间进行权衡。在许多生物医学数据科学应用程序中,很可能无法很好地实现良好的性能。因此,从解决问题的角度来看,可解释性可能不是首要任务。可能存在一些可解释性好但性能一般的 AI 方法,但出于效率的考虑,它们不会被生物医学数据科学家选择。
第三,生物医学数据科学中,使用的人工智能或机器学习方法产生的学习偏差,有时会阻止人工智能方法提供最低限度的解释。学习偏差问题是指人工智能结果本身存在偏差甚至完全错误。学习偏差可能是由于某些 AI 方法与某类数据的交互不匹配、参数设置或调优错误、数据不平衡或其他更复杂的问题造成的,但生物医学数据科学家可能不容易识别。学习偏差在技术上是一个学习安全问题,由于人工智能模型中的伪影而产生无法控制的结果。可解释的人工智能应该建立在人工智能方法可以取得良好结果并且没有任何学习安全问题的假设之上。
然而,从基于内核的学习、集成学习到深度学习的许多广泛使用的 AI 模型,都存在或可能存在某些类型的生物医学数据的学习安全问题。对于某些应用领域,例如转化生物信息学中的疾病诊断,解决 AI 学习安全性或修复学习缺陷可能比 AI 可解释性更重要。
近期的研究工作在可解释人工智能方面取得了良好进展,其中基于规则的学习、学习过程可视化、基于知识的数据表示、以人为中心的人工智能模型评估等被用来增强人工智能的可解释性。
毫无疑问,这些技术将有助于生物医学数据科学中可解释的人工智能。然而,如何克服挑战,开发可解释且高效的人工智能算法,可能需要对生物医学数据科学研究给予更多的关注。可解释的 AI 可能有助于提高 AI 的效率和安全性,但 AI 的可解释性应基于定制的 AI 方法开发的生物医学应用程序的良好效率和安全性来解决。
另一方面,人工智能的可解释性也应该有不同的严格指标,以满足生物医学应用中的不同需求。AI 可解释性应该旨在以可理解的方式实现良好的效率和公正的结果,以提高 AI 模型的透明度和可信度,而不是简单地强调用户的理解。当 AI 学习效率足够好,AI 学习安全问题得到澄清和修复,可解释性评价指标足够成熟时,可解释 AI 时代终将会到来,但在不同的领域会以不同的速度到来。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04368-1
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢