- 简介许多方法已被提出来检测、估计和分析图像中人物的属性,包括3D姿势、形状、接触、人物-物体交互、情感等等。每个方法都是孤立工作的,而不是协同工作的。在这里,我们解决了这个问题,并构建了一个语言驱动的人类理解系统——ChatHuman,它结合和整合了许多不同方法的技能。为此,我们微调了一个大型语言模型(LLM),以选择和使用各种现有工具来响应用户输入。通过这样做,ChatHuman能够结合多个工具的信息,比单个工具本身更准确地解决问题,并利用工具的输出来提高其对人类的推理能力。ChatHuman的新特性包括利用学术出版物指导应用3D人类相关工具、采用检索增强的生成模型生成处理新工具的上下文学习示例,以及区分和整合工具结果以增强3D人类理解。我们的实验表明,ChatHuman在多个3D人类相关任务的工具选择准确性和性能方面均优于现有模型。ChatHuman是将各种人类分析方法整合到一个单一、强大的3D人类推理系统中的一步。
-
- 图表
- 解决问题本论文旨在构建一个语言驱动的人类理解系统 ChatHuman,将多种不同的方法结合起来,以更准确地解决人类相关的问题。
- 关键思路论文中的关键思路是使用大型语言模型(LLM)来选择和使用各种现有工具,从而结合信息以更准确地解决问题,并利用工具输出来改善 ChatHuman 对人类的推理能力。
- 其它亮点本文的亮点包括利用学术出版物来指导 3D 人类相关工具的应用,使用检索增强生成模型来生成上下文学习示例以处理新工具,以及区分和整合工具结果以增强 3D 人类理解。实验表明,ChatHuman 在工具选择准确性和多个 3D 人类相关任务的性能方面优于现有模型。
- 在这个领域中,最近的相关研究包括《End-to-End Learning of Semantic Communication》、《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流