- 简介在医疗保健和医疗诊断领域,视觉问答(VQA)可能成为一个关键工具,用于在需要对复杂的医学图像进行分析以进行准确诊断的情况下。目前基于文本的VQA系统在需要进行无人操作和可访问性至关重要的情况下限制了它们的实用性。语音问答系统可以提供更好的交互方式,使得在同时执行任务时可以访问信息。为此,本研究通过引入一个名为Textless Multilingual Pathological VQA(TMPathVQA)的数据集,扩展了PathVQA数据集,其中包含英语、德语和法语的口语问题。该数据集包括98,397个多语言口语问题和答案,基于5,004个病理图像,以及70小时的音频。最后,本研究对使用各种组合的声学和视觉特征实现的TMPathVQA系统进行了基准测试和比较。
- 图表
- 解决问题本论文旨在实现一种基于语音的视觉问答(VQA)系统,以解决医疗诊断中需要同时进行任务和获取信息的场景下,当前基于文本的VQA系统存在的局限性。
- 关键思路本论文通过引入一个包含英语、德语和法语口语问题的Textless Multilingual Pathological VQA(TMPathVQA)数据集,扩展了PathVQA数据集,最终实现了一种基于语音的VQA系统,该系统使用各种组合的声学和视觉特征进行了基准测试和比较。
- 其它亮点本论文数据集包含98,397个多语言口语问题和答案,基于5,004个病理图像,以及70小时的音频。实验设计了多种组合的声学和视觉特征,并进行了基准测试和比较。本论文的思路在于通过语音交互来解决医疗诊断中需要同时进行任务和获取信息的场景下,当前基于文本的VQA系统存在的局限性。
- 近期的相关研究包括:1.《Multimodal Machine Learning: A Survey and Taxonomy》;2.《Visual Question Answering: A Survey of Techniques and Datasets》;3.《A Review of Recent Advances in Visual Question Answering》等。
沙发等你来抢
去评论
评论
沙发等你来抢