- 简介开发乌尔都语场景文字检测、识别和视觉问答(VQA)技术对于推进数字内容的可访问性、信息检索和语言多样性至关重要,有助于更好地理解和处理乌尔都语言的视觉数据。该倡议旨在弥合文本和视觉理解之间的差距。我们提出了一个新的多任务乌尔都语场景文本数据集,包括1000多张自然场景图像,可用于文本检测、识别和VQA任务。我们为文本实例提供了细粒度注释,解决了先前数据集面对任意形状文本的局限性。通过加入额外的注释点,该数据集促进了能够处理多样化文本布局、复杂形状和非标准方向的方法的开发和评估,这些方法通常在实际场景中遇到。此外,VQA注释使其成为乌尔都语文本VQA方法的第一个基准,可以促进乌尔都语场景文本理解的发展。该提议的数据集可在以下网址上获取:https://github.com/Hiba-MeiRuan/Urdu-VQA-Dataset-/tree/main
- 图表
- 解决问题论文旨在解决乌尔都语场景文本检测、识别和视觉问答(VQA)技术的问题,以促进数字内容的可访问性、信息检索和语言多样性,提高对乌尔都语视觉数据的理解和交互。
- 关键思路论文提出了一个新的多任务乌尔都语场景文本数据集,包括1000多个自然场景图像,可用于文本检测、识别和VQA任务。通过增加附加注释点,该数据集有助于开发和评估能够处理多样化的文本布局、复杂形状和非标准方向的方法。此外,VQA注释使其成为乌尔都语文本VQA方法的第一个基准,可以促进乌尔都语场景文本理解的发展。
- 其它亮点论文提供了细粒度的文本实例注释,解决了先前数据集面对任意形状文本的限制。论文提出的数据集可用于文本检测、识别和VQA任务。作者提供了开源代码和数据集。
- 最近的相关研究包括:1.《基于深度学习的场景文本检测方法综述》;2.《基于深度学习的文本识别方法研究》;3.《场景文本检测的综述》等。


提问交流