ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning

简介

许多方法已被提出来检测、估计和分析图像中人物的属性，包括3D姿势、形状、接触、人物-物体交互、情感等等。每个方法都是孤立工作的，而不是协同工作的。在这里，我们解决了这个问题，并构建了一个语言驱动的人类理解系统——ChatHuman，它结合和整合了许多不同方法的技能。为此，我们微调了一个大型语言模型（LLM），以选择和使用各种现有工具来响应用户输入。通过这样做，ChatHuman能够结合多个工具的信息，比单个工具本身更准确地解决问题，并利用工具的输出来提高其对人类的推理能力。ChatHuman的新特性包括利用学术出版物指导应用3D人类相关工具、采用检索增强的生成模型生成处理新工具的上下文学习示例，以及区分和整合工具结果以增强3D人类理解。我们的实验表明，ChatHuman在多个3D人类相关任务的工具选择准确性和性能方面均优于现有模型。ChatHuman是将各种人类分析方法整合到一个单一、强大的3D人类推理系统中的一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在构建一个语言驱动的人类理解系统 ChatHuman，将多种不同的方法结合起来，以更准确地解决人类相关的问题。
关键思路

论文中的关键思路是使用大型语言模型（LLM）来选择和使用各种现有工具，从而结合信息以更准确地解决问题，并利用工具输出来改善 ChatHuman 对人类的推理能力。
其它亮点

本文的亮点包括利用学术出版物来指导 3D 人类相关工具的应用，使用检索增强生成模型来生成上下文学习示例以处理新工具，以及区分和整合工具结果以增强 3D 人类理解。实验表明，ChatHuman 在工具选择准确性和多个 3D 人类相关任务的性能方面优于现有模型。
相关研究

在这个领域中，最近的相关研究包括《End-to-End Learning of Semantic Communication》、《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》等。

ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning

提问交流

提问交流