AI助盲，多模态视觉问答模型解决方案论文登ACM

据世卫组织统计，全球至少22亿人视力受损或失明，而我国是世界上盲人最多的国家，占世界盲人总数的18%-20%，每年新增的盲人数量高达45万。

「机器视觉+自然语言理解」为代表的多模态智能技术的爆发式突破，给AI助盲带来新的可能，更多的失明者将借助AI提供的感知、理解与交互能力。

因此基于AI构建机器视觉系统，帮助视障患者拥有对外界环境的视觉感知与视觉理解能力，无疑是最直接有效的解决方案。

在视觉感知领域，当下的单模态AI模型已经在图像识别任务上超越了人类水平，但这类技术目前只能实现视觉模态内的识别及理解，难以完成与其他感觉信息交叉的跨模态学习、理解与推理，简单来说，就是只能感知无法理解。

浪潮信息前沿研究团队探索了真实世界中，由于人类语言错误导致的多模态失配问题，首次提出视觉定位文本去噪推理任务FREC，要求模型正确定位噪声描述对应的视觉内容，并进一步推理出文本含噪的证据。

FREC提供3万图片和超过25万的文本标注，囊括了口误、歧义、主观偏差等多种噪声，还提供噪声纠错、含噪证据等可解释标签，构建了首个可解释去噪视觉定位模型FCTR，噪声文本描述条件下精度较传统模型提升11个百分点。

这一研究成果已发表于ACM Multimedia 2022会议，该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。

内容中包含的图片若涉及版权问题，请及时与我们联系删除