- 简介现有的人体关键点定位模型的容量受到训练数据提供的关键点先验的限制。为了缓解这种限制并追求更普适的模型,本文从不同的角度研究了基于文本描述的关键点定位,通过基于文本描述中的关键点线索来推理位置。我们提出了LocLLM,第一个基于大型语言模型(LLM)的关键点定位模型,它将图像和文本指令作为输入,并输出所需的关键点坐标。LocLLM利用LLM的强大推理能力和文本描述中关键点类型、位置和关系的线索进行关键点定位。为了有效调整LocLLM,我们构建了基于定位的指令对话,将关键点描述与输入图像中相应的坐标连接起来,并在参数高效的训练流程中对整个模型进行微调。LocLLM在标准的2D / 3D关键点定位基准测试中表现出了卓越的性能。此外,将语言线索纳入定位使LocLLM在跨数据集关键点定位方面表现出卓越的灵活性和可推广性,甚至可以检测到在训练过程中未见过的新型关键点。
-
- 图表
- 解决问题本论文旨在通过利用文本描述中的关键点线索,从不同的角度研究关键点定位,并提出了一种基于大型语言模型的关键点定位模型LocLLM。该模型旨在解决现有关键点定位模型在训练数据提供的关键点先验方面的局限性,并追求更通用的模型。
- 关键思路LocLLM是一种基于大型语言模型的关键点定位模型,它利用了LLM的强大推理能力和文本描述中的关键点类型、位置和关系线索来进行关键点定位。为了有效地调整LocLLM,我们构建了基于定位的指令对话,将关键点描述与输入图像中对应的坐标连接起来,并在一个参数高效的训练流程中对整个模型进行微调。
- 其它亮点该论文的亮点包括:1.提出了一种基于大型语言模型的关键点定位模型LocLLM;2.通过将文本描述中的关键点线索与输入图像中对应的坐标连接起来,有效地解决了现有关键点定位模型在训练数据提供的关键点先验方面的局限性;3.在标准2D/3D关键点定位基准测试中,LocLLM表现出卓越的性能;4.将语言线索纳入定位中,使LocLLM在跨数据集关键点定位方面表现出卓越的灵活性和可推广能力,甚至可以检测到训练中未见过的新类型关键点。
- 最近在这个领域中,还有一些相关的研究,如《KeypointNet: A Large-Scale 3D Keypoint Dataset Aggregated from Numerous Human Annotations》、《Learning to Navigate the Energy Landscape》、《Keypoint-Matching-Based Object Recognition via Graph Convolutional Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流