OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion

2024年03月28日
  • 简介
    我们介绍了OAKINK2数据集,该数据集包含用于复杂日常活动的双手物体操作任务。为了将复杂任务构建成结构化表示形式,OAKINK2引入了三个抽象级别来组织操作任务:可操作性、基本任务和复杂任务。OAKINK2以以物体为中心的视角来解码复杂任务,将其视为一系列物体可操作性的实现。第一级别的可操作性概述了场景中物体可以实现的功能,第二级别的基本任务描述了人类与物体互动以实现其可操作性的最小交互单元,第三级别的复杂任务说明了基本任务如何组合和相互依存。OAKINK2数据集提供了人体、手部和各种交互对象的多视图图像流和精确的姿态注释。这个广泛的收集支持诸如交互重建和运动合成等应用。基于OAKINK2的3级抽象,我们探索了一个面向任务的框架,用于完成复杂任务(CTC)。CTC旨在生成一系列双手操作,以实现任务目标。在CTC框架内,我们使用大型语言模型(LLMs)将复杂任务目标分解为基本任务序列,并开发了一个运动实现模型,为每个基本任务生成双手手部运动。OAKINK2数据集和模型可在https://oakink.net/v2上获得。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决的问题是如何构建一个结构化的表示来完成复杂的双手物体操作任务,并提供相应的数据集和模型来支持交互重建和运动合成等应用。
  • 关键思路
    论文提出了一种三级抽象的方法来组织操作任务:Affordance、Primitive Task和Complex Task,并采用以物体为中心的视角来解码复杂的任务,将其视为一系列物体可供性的实现。在此基础上,论文探索了一种基于任务的框架来完成复杂任务,该框架使用大型语言模型将复杂任务目标分解为Primitive Tasks的序列,并开发了Motion Fulfillment Model来为每个Primitive Task生成双手运动。
  • 其它亮点
    论文提供了一个名为OAKINK2的数据集,其中包含多视图图像流和人体、手部和各种交互物体的精确姿态注释,支持交互重建和运动合成等应用。论文还探索了一种基于任务的框架来完成复杂任务,使用大型语言模型将复杂任务目标分解为Primitive Tasks的序列,并开发了Motion Fulfillment Model来为每个Primitive Task生成双手运动。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》、《Learning to Manipulate Objects with Predictive Inference》等。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问