Real-Time Multimodal Cognitive Assistant for Emergency Medical Services

2024年03月11日
  • 简介
    本文介绍了CognitiveEMS,一种端到端的可穿戴认知助手系统,它可以作为协作虚拟伙伴,通过增强现实智能眼镜与急救人员进行实时多模态数据的获取和分析,并进行交互。CognitiveEMS实时处理连续的数据流,并利用边缘计算提供EMS协议选择和干预识别方面的帮助。我们通过引入三个新的组件来解决实时认知辅助中的关键技术挑战:(i)一个语音识别模型,通过使用模拟EMS音频记录和大型语言模型生成的合成数据,对真实世界的医疗紧急情况对话进行微调;(ii)一个EMS协议预测模型,它利用基于图形的注意机制将最先进的小型语言模型与EMS领域知识相结合;(iii)一个EMS行动识别模块,它利用多模态音频和视频数据以及协议预测来推断应急响应者在事故现场采取的干预/治疗行动。我们的结果表明,在语音识别方面,我们在对话数据上实现了比SOTA更优异的性能(WER为0.290 vs. 0.618)。我们的协议预测组件也明显优于SOTA(top-3准确率为0.800 vs. 0.200),行动识别的准确率为0.727,同时在边缘端的协议预测端到端延迟为3.78秒,在服务器上为0.31秒。
  • 图表
  • 解决问题
    本文旨在提出一种可穿戴认知助手系统CognitiveEMS,为EMS急救人员提供实时的认知辅助。该系统可以通过AR智能眼镜实时获取和分析急救现场的多模态数据,并与EMS急救人员进行互动。作者试图解决EMS急救人员在时间紧迫、认知负荷高的情况下需要快速决策和批判性思维技能的问题。
  • 关键思路
    CognitiveEMS系统通过三个模块来提供实时的认知辅助:语音识别模型、EMS协议预测模型和EMS行动识别模块。作者使用大型语言模型生成的合成数据来训练针对实际EMS会话的语音识别模型,使用基于图形的注意机制将SOTA微型语言模型和EMS领域知识相结合来预测EMS协议,使用多模态音视频数据和协议预测来推断急救人员在现场采取的干预/治疗行动。
  • 其它亮点
    本文的亮点在于提出了一种可穿戴的认知助手系统,能够为EMS急救人员提供实时的认知辅助。作者提出的三个模块在实验中表现出良好的性能,语音识别模型的识别准确率优于SOTA,EMS协议预测模型的准确率也显著优于SOTA。此外,作者还提供了EMS数据集和开源代码,为后续的研究提供了基础。
  • 相关研究
    在相关研究方面,最近的一些研究关注于使用人工智能技术来改进EMS急救服务。例如,一些研究关注于使用机器学习算法来预测EMS响应时间,另一些研究关注于使用深度学习技术来改进EMS图像识别。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论