WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions

2024年06月17日
  • 简介
    语言模型(LMs)被提出用于心理健康应用,其中不良结果的风险增加意味着预测性能可能不足以成为模型在临床实践中实用性的试金石。一个可以信任的实践模型应该在解释和临床决定之间有对应关系,然而以前没有研究过这些模型的注意力保真度及其对基本真相解释的影响。我们引入了一种评估设计,重点关注LMs在识别健康维度(WD)方面的鲁棒性和可解释性。我们关注两个心理健康和幸福感数据集:(a)基于多标签分类的MultiWD,(b)WellXplain用于评估注意机制的真实性,与专家标记的解释相对比。标签基于Halbert Dunn的健康理论,这为我们的评估提供了基础。我们揭示了关于LMs / LLMs的四个令人惊讶的结果:(1)尽管具有类似人类的能力,但GPT-3.5 / 4落后于RoBERTa和MedAlpaca,经过微调的LLM在性能或解释方面都没有提供显着的改进。(2)基于自信度取向的损失函数重新检查LMs的预测结果,显示出显著的性能下降。(3)在所有LMs / LLMs中,注意力和解释之间的对齐仍然很低,LLMs得分为0.0。(4)大多数心理健康特定的LMs / LLMs忽略了领域特定的知识,并低估了解释,导致这些差异。这项研究强调了在心理健康和幸福感领域需要进一步研究它们的一致性和解释。
  • 图表
  • 解决问题
    本文旨在评估语言模型(LMs)在识别健康维度方面的鲁棒性和可解释性,以及它们与专家标注的解释之间的一致性。作者发现当前大多数LMs在精度和解释方面存在问题,这对于精神健康应用而言是不可接受的。
  • 关键思路
    本文提出了一种评估设计,将Halbert Dunn的健康理论用于评估LMs的性能。作者发现,尽管GPT-3.5/4的人类水平能力很高,但它们在性能和解释方面仍然落后于RoBERTa和MedAlpaca。作者还发现,LMs的预测结果受到置信度导向的损失函数的影响,而LMs的注意力机制与解释之间的一致性仍然很低。
  • 其它亮点
    本文使用了两个精神健康和幸福感数据集,评估了LMs的性能和解释的可靠性。作者发现LLMs并没有带来明显的性能和解释方面的改进。作者还指出,大多数精神健康特定的LMs忽视了领域特定的知识,并低估了解释的重要性。本文的亮点包括实验设计、数据集和开源代码。
  • 相关研究
    最近的相关研究包括使用LMs进行情感分析和精神健康诊断的研究。其中一些研究包括“基于BERT的情感分析”和“使用LSTM的情感分析”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论