- 简介智能助手不仅涉及理解,还包括行动。现有的以自我为中心的视频数据集包含了视频的丰富注释,但没有智能助手在此时此刻可以执行的行动。为了填补这一空白,我们发布了PARSE-Ego4D,这是Ego4D数据集的新一组个人行动建议注释。我们采用多阶段方法生成和评估这些注释。首先,我们使用一个经过提示设计的大型语言模型(LLM)生成上下文感知的行动建议,并识别出超过18,000个行动建议。虽然这些合成的行动建议是有价值的,但LLM的固有限制需要人工评估。为了确保高质量和以用户为中心的建议,我们进行了大规模的人工注释研究,为PARSE-Ego4D提供了人类偏好的基础。我们分析了评分者之间的一致性,并评估了参与者的主观偏好。基于我们的合成数据集和完整的人工注释,我们提出了几个基于自我中心视频的行动建议任务。我们鼓励提出改进延迟和能源要求的新颖解决方案。PARSE-Ego4D中的注释将支持研究人员和开发人员构建增强和虚拟现实系统的行动建议系统。
-
- 图表
- 解决问题为Ego4D数据集提供个人动作推荐注释,以填补现有数据集缺少智能助手行动推荐注释的空白。
- 关键思路使用大型语言模型生成上下文感知的行动建议,并通过大规模人类注释研究确保高质量和用户中心的建议。
- 其它亮点论文提供了PARSE-Ego4D数据集,支持研究人员和开发人员构建增强和虚拟现实系统的动作推荐系统。同时,提出了一些基于自我中心视频的行动建议新任务,并鼓励改进延迟和能源需求的新颖解决方案。
- 近期的相关研究包括:1. EgoGesture数据集;2. EPIC-Kitchens数据集;3. Charades-Ego数据集。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流