食品与人类的行为、健康和文化等密切相关. 社交网络、移动网络和物联网等泛在网络产生了食品大数 据,这些大数据与人工智能,尤其是快速发展的深度学习催生了新的交叉研究领域食品计算. 作为食品计算的核 心任务之一,食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支,因而具有重要的理论研究意义, 并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景. 为此,本文对食品图像识别领域进行了全面综述. 该文首先从识别对象、视觉特征表示及学习方法等不同维度对目前的食品图像识 别进行分类并深入阐述和分析了当前的研究进展,指出深度学习模型是当前食品图像识别的主流方法,融入各种 上下文信息和外部知识是改进食品图像识别的重要手段. 其次从食品数据规模、食品类型及是否包含上下文和多 模态信息等方面介绍了现有的食品图像识别数据集,并给出了不同识别方法在主流数据集上的性能对比和分析. 接下来总结了食品图像识别在饮食质量评估、食品自动结算、智能厨具、食品图像的组织检索和推荐等多个方面 的应用情况. 最后本文从面向食品特点的食品图像识别方法、大规模食品图像识别基准数据集构建等方面对食品 图像识别未来可能的研究方向进行了总结和展望. 


1. 引言
 食物不仅对人类的健康营养等生活方面产生深 远影响,而且在定义我们的身份、社会地位和文化 等方面同样起着重要作用[1],正如法国美食家布里 亚·萨瓦兰所说的“告诉我你吃什么,我就告诉你 是谁”. 因此,与食物相关的研究[2-3]一直是一个研 究热点. 来自不同研究领域的研究人员已经从不同 角度进行了与食物相关的研究,包括食物选择[4]、 食物感知[5]、食品消费[6]、食品安全[7]和食品文化[8] 等. 由于食品相关研究涉及到多个研究领域,因此 研究的较为分散,缺乏一个系统整体. 2019 年,Min 等人[9]系统提出了食品计算框架,指出食品计算包 括食品感知、识别、检索和推荐等多个任务,并服 务于医学、生物学、农业、食品工业和营养健康等 多个领域. 其中食品图像识别是其基础且核心任务 之一.
从计算机视觉领域来看,食品图像识别是细粒 度视觉识别的重要分支[10-13],具有重要的研究价值. 当前各种便携式设备(如手机和相机等)及可穿戴 设备(如可穿戴相机)的广泛普及和人工智能技术 的迅速发展使得食品图像识别同时具有广泛的应用 前景. 例如,通过识别菜品的类别、食材或其他属 性信息,可分析菜品营养成分以及评估用户饮食习 惯,实现用户健康监管和疾病防控. 食品图像识别 可通过识别客户用餐、生鲜果蔬和包装食品等实现 食品的自动结算,应用在无人餐厅、无人超市及食 品工业中. 此外,通过食品图像识别还可以进一步 实现食品推荐和社交网站的食品图像组织检索. 正 因为如此,食品图像识别已逐渐成为计算机视觉 [14-15]、多媒体[16-19]、工业信息学[20-21]、医学与健康 信息学[22-24]、农业和生物工程[25-28]等多个领域的研究热点. 
食品图像识别属于细粒度图像识别. 细粒度图 像识别是指对同一类物体下的不同子类进行识别, 如识别不同种类的鸟或车. 食品图像识别的主要任 务是利用计算机技术识别出食品图像中食品的种 类,或识别出其他不同粒度的语义信息(如食材 (Ingredient)和菜系等). 根据《中华人民共和国 食品安全法》,食品被定义为各种供人食用或者饮用 的成品和原料以及按照传统既是食品又是药品的物 品. 因此食品的种类丰富多样,当前主流的食品图 像识别主要是针对菜品的识别,但也包括对生鲜果 蔬、食材和包装食品的识别等. 图 1 展示了来自当 前食品数据集的一些实例图像. 现有食品图像识别 主要针对某大类食品下的分类,如菜品识别[15]、果 蔬识别[20]、食材识别[21]和包装食品识别[29]等. 其识 别结果可进一步支持各种应用,如饮食热量估计和 自动结算等. 

食品图像识别的研究可以追溯到 1977 年, Parrish 等人[31]最先开展基于视觉的果蔬识别研究,应用于水果采摘. 1996 年,Bolle 等人[32]提出了果蔬 识别系统 VeggieVision,用于超市等场景的果蔬结 算. 在 2000 年之前,食品图像识别主要用于与生产 链和市场食品质量评估相关的工程应用[33]. 之后由 于菜品图像识别的广泛应用价值而受到越来越多的 关注. 2008 年,Kitamura 等人[34]提出了多媒体饮食 日志系统. 该系统通过菜品图像和非菜品图像的分 类得到用户的菜品图像,然后对其进行成分和热量 分析以提供饮食建议. 2009 年,Chen 等人[35]发布了 第一个快餐食品数据集 PFID,之后于 2010 年提出 了一种联合视觉词袋模型和颜色直方图的特征提取 方法在该数据集上进行了测试 [36]. 同 年 Pornpanomchai 等人[37]融合多种手工特征和分类器 进行果蔬识别. 2014 年 Bossard 等人[15]发布了第一 个大规模西方菜品图像数据集 Food-101,并较早将 深度学习用于食品图像识别,同年 Yanai 等人[38]也 尝试将深度学习用于菜品图像识别. 随着深度学习 技术的快速发展和大规模食品图像数据集的不断 增多,食品图像识别的相关研究逐渐多了起来. 2015 年,微软等研究机构[39]利用传统的视觉词袋 模型提取菜品视觉特征识别菜品,并进一步实现菜 品的热量估计. 同年 Google 提出了一个 Im2Calories 系统[14],该系统通过训练深度学习网络提取特征进 行菜品中的食材识别,然后基于识别的食材估计菜 品热量. Xu 等人[40]尝试将餐馆位置信息融入到识 别模型以改进菜品图像识别性能. 之后多个研究 团队[12,18]挖掘食材等多模态信息,结合深度学习模 型,通过多任务学习实现菜品和食材的同时识别. 2016 年,Chen 等人[29]发布了中餐菜品数据集 Vireo Food-172. 2017 年 Ciocca 等人[22]发布了面向餐厅的托 盘菜品识别数据集 UNIMIB2016. 同年 Hou 等人[13]发 布了果蔬数据集 VegFru,包括 292 类果蔬和超过160000 张果蔬图片. 2018 年,Bettadapura 等人[41]提 出了一种面向餐厅托盘的菜品检测和识别方法,并 在 UNIMIB2016 进行了测试. 2019 年 Min 等人[9]系 统提出食品计算框架,并指出食品图像识别是其核 心任务之一,之后于 2020 年发布了新的大规模菜品 数据集 ISIA Food-500[42]. 近来一些研究学者尝试将 小样本学习[43]应用到菜品图像识别任务中. 与此同 时,由于深度学习技术的发展使得果蔬识别技术在 农业相关领域也实现了快速发展[44]. 按照其发展脉 络,图 2 展示了各时间节点的代表性食品识别工作, 可以看出 2014 年是一个重要的分界线,一方面以 AlexNet 网络为代表的深度学习方法[45]在图像识别 等领域获得了巨大成功;另一方面是 Food-101 及之 后多个较大规模食品图像识别基准数据集的发布推 动了食品图像识别技术的迅速发展.  


由于食品相关研究的跨学科性,食品图像识别 的研究分散在计算机视觉、多媒体、农业、生物、 医学和营养健康等不同的研究领域中. 目前尽管有 一些食品图像识别的综述,但是这些工作主要是针 对某一个特定领域的总结. 例如 Khurram Hameed 等人[44]主要面向农业领域系统地阐述了果蔬识别技 术,并总结了果蔬识别的相关应用和发展前景. Lo 等人[24]在生物医学与健康信息学领域重点对面向饮 食质量评估的菜品图像识别和检测算法给予了系统 综述. 此外,Min 等人[9]在国际上第一次提出了食品 计算框架,对包括食品图像识别在内的多个食品计 算任务进行了较为系统总结. 不同于已有综述,本 文基于食品定义,以更宽广的视角对食品图像识别 进行系统综述. 首先从识别对象、视觉特征学习和 学习方法等不同维度对食品图像识别技术进行了系 统梳理和全面总结,其次介绍了现有的食品图像识 别数据集,并给出了不同识别方法在主流数据集上的性能对比和分析,然后总结了食品图像识别在 多个领域中的具体应用情况,最后展望了该领域未来研究的可能发展方向. 作为阅读指导,图 3 给出 了本综述各部分内容之间的总体路线图.  

 

下载链接:

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=JSJX202203007&uniplatform=NZKPT&v=Ok8Ry4WzimPl0zqMfRZokieBeI0O-B88M_g6nV2aGGj3LgaHY3rLjHBz1xuRnjru

内容中包含的图片若涉及版权问题,请及时与我们联系删除