PhotoBot: Reference-Guided Interactive Photography via Natural Language

简介

我们介绍了一种名为PhotoBot的框架，它是基于高级人类语言引导和机器人摄影师之间的相互作用而实现自动化照片获取的。我们建议通过从策划画廊中检索的参考图片向用户传达摄影建议。我们利用视觉语言模型（VLM）和物体探测器通过文本描述来表征参考图片，并使用大型语言模型（LLM）通过基于文本推理的用户语言查询来检索相关的参考图片。为了使参考图片与观察到的场景相对应，我们利用一个能够在显著变化的图像之间捕捉语义相似性的视觉转换器的预训练特征。利用这些特征，我们通过解决透视n点（PnP）问题计算RGB-D相机的姿态调整。我们在配备有手腕相机的真实世界机械手上展示了我们的方法。我们的用户研究表明，根据人类反馈，由PhotoBot拍摄的照片通常比用户自己拍摄的照片更具审美价值。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

自动化照片获取的问题。
关键思路

通过高级别的人类语言指导和机器人摄影师之间的相互作用，提出了一个基于视觉语言模型和物体检测器的自动照片获取框架。
其它亮点

使用视觉语言模型和物体检测器对参考图片进行文字描述和特征提取，使用大型语言模型检索相关的参考图片，利用预训练的视觉变换器计算相机的姿态调整，实验结果表明，该方法拍摄的照片比用户自己拍摄的更美观。
相关研究

最近的相关研究包括基于深度学习的图像检索、视觉语言模型和物体检测器的应用、基于视觉变换器的相机姿态估计等。

PhotoBot: Reference-Guided Interactive Photography via Natural Language

提问交流

提问交流