Continuous Object State Recognition for Cooking Robots Using Pre-Trained Vision-Language Models and Black-box Optimization

简介

机器人对环境和物体的状态识别通常基于将当前状态视为分类问题的判断。另一方面，烹饪中食物的状态变化是连续发生的，需要不仅在某个时间点捕捉，而且需要在时间上连续捕捉。此外，食物的状态变化是复杂的，不能通过手动编程轻松描述。因此，我们提出了一种通过口语语言利用预先训练的大规模视觉语言模型识别烹饪机器人连续状态变化的方法。通过使用可以在时间上连续计算图像和文本相似度的模型，我们可以在烹饪过程中捕捉食物的状态变化。我们还表明，通过根据将相似度变化拟合到sigmoid函数的权重调整每个文本提示，然后执行黑盒优化，可以实现更准确和稳健的连续状态识别。我们通过进行水沸腾、黄油融化、鸡蛋烹饪和洋葱炒作的识别来展示这种方法的有效性和限制。
图表
解决问题

论文提出了一种通过语音识别来实现烹饪机器人对食物状态持续变化的识别方法，以解决当前基于图像分类的识别方法无法满足食物烹饪过程中状态变化的连续性和复杂性的问题。
关键思路

通过使用预训练的大规模视觉-语言模型计算图像和文本之间的相似度，对食物状态变化进行持续监控，并通过对文本提示的加权调整来优化连续状态识别的准确性和鲁棒性。
其它亮点

论文通过实验验证了该方法在水沸腾、黄油融化、鸡蛋烹饪和洋葱翻炒等场景下的有效性和局限性，并指出该方法的优势在于能够持续地对食物状态变化进行监控，避免了传统基于图像分类的方法无法满足连续性和复杂性的问题。论文还提供了相关数据集和开源代码，为后续研究提供了便利。
相关研究

在该领域的相关研究中，也有一些基于视觉-语言模型的方法被提出，如VLP和UNITER等。

Continuous Object State Recognition for Cooking Robots Using Pre-Trained Vision-Language Models and Black-box Optimization

评论