本期分享中科院计算所和美团合作发表于IEEE TPAMI2023的研究工作“Large Scale Visual Food Recognition” (Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 。IEEE TPAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence, 是模式识别、计算机视觉及机器学习领域的国际主流期刊,2022年公布的影响因子为24.314。
由于食品在人们生活中的基础性地位,来自物联网、社交网、互联网等各种网络产生的海量食品多媒体数据在食品工业、膳食营养和健康管理等诸多领域蕴含着广阔应用前景和巨大社会价值,催生了“食品计算”这一新兴方向。食品图像识别作为食品计算的一项基本任务,在膳食选择、智能化的营养摄入和评估中起着重要作用。相比常规图像分类数据集,当前主流食品图像数据集规模较小,不足以建立更先进的食品图像识别模型,为此我们构建了国际上规模最大的食品图像识别数据集Food2K,包括2000类食品和超过100万的食品图像。在此基础上,进一步提出了一个面向食品图像识别的深度渐进式区域增强网络。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成。前者通过改进的渐进式训练方法学习多样互补的局部细粒度判别性特征(如食材相关区域特征),后者利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中,进一步增强特征表示。在Food2K上进行的大量实验证明了所提出方法的有效性,并且在Food2K上训练的网络能够改进各种食品计算视觉任务的性能,如食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。我们期待 Food2K及在Food2K上的训练模型能够支撑研究者探索更多的食品计算新任务。
论文链接:
https://doi.org/10.1109/TPAMI.2023.3237871
数据集、代码和模型下载地址:
http://123.57.42.89/FoodProject.html
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢