How Does India Cook Biryani? - 智源社区论文

向作者提问

NEW

简介

印度最负盛名的菜肴之一——印度香饭（biryani），在制作方法、食材和呈现方式上展现出显著的地域差异。随着在线烹饪视频日益普及，利用计算工具系统性地研究这类烹饪差异变得前所未有地可行。然而，现有的视频理解方法难以捕捉程序性烹饪视频中那些细粒度、多模态且植根于文化背景的差异。本文提出了首个大规模、经过精心整理的印度香饭制作视频数据集，包含来自12种不同地域风格的120个高质量YouTube视频记录。我们设计了一个多阶段框架，利用最新的视觉-语言模型（VLM）技术，将视频分割为细粒度的操作步骤，并将其与音频转录文本及标准食谱文本对齐。基于这些对齐后的表示，我们进一步提出了一套视频比较流程，能够自动识别并解释不同地域版本之间的操作差异。我们还构建了一个涵盖多种推理层次的综合性问答（QA）基准，用于评估视觉-语言模型在程序性理解方面的能力。我们的方法结合多个视觉-语言模型发挥互补作用，引入人工参与验证以确保高精度任务的可靠性，并在零样本和微调设置下对多种前沿模型进行了基准测试。最终所得的数据集、比较方法和问答基准为评估视觉-语言模型在结构化、多模态推理任务上的表现提供了新的测试平台，同时也为通过烹饪视频进行文化遗产的计算分析开辟了新的研究方向。我们已公开所有数据、代码以及项目网站：https://farzanashaju.github.io/how-does-india-cook-biryani/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的视频理解方法难以捕捉烹饪视频中细粒度、多模态且具有文化背景的程序性差异，尤其是在像印度不同地区制作biryani这样复杂而多样化的菜肴时。如何系统地分析这些跨区域的烹饪差异成为一个尚未被充分探索的新问题。
关键思路

提出一个基于视觉-语言模型（VLMs）的多阶段框架，将biryani制作视频分割为细粒度的操作步骤，并与音频转录和标准食谱文本对齐，进而构建自动化的区域间程序差异比较管道。该方法结合多种VLM在不同角色中的互补使用，并引入人工验证以提升精度，实现了对文化相关烹饪流程的结构化理解。
其它亮点

构建了首个大规模、精心策划的120个biryani烹饪视频数据集，涵盖12种印度地区风格；设计了一个多层次推理的问答（QA）基准用于评估VLM的程序理解能力；实验包括零样本和微调设置下的多个SOTA模型评测；所有数据、代码及项目网站均已公开，支持后续研究。特别值得深入的是将VLM用于文化传承内容的计算分析这一方向。
相关研究

1. 'Flava: A Foundational Language And Vision Alignment Model' by Li et al., 2022 2. 'HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips' by Miech et al., 2020 3. 'MERLOT: Multimodal Neural Script Knowledge Models' by Zellers et al., 2021 4. 'Temporal Action Detection in Untrimmed Videos with Recurrent Neural Networks' by Yeung et al., 2016 5. 'Recipe1M+: A Dataset for Learning Cross-Modal Embeddings for Cooking Recipes and Food Images' by Marín et al., 2021

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问