Meta AI | 稳定的签名:将水印根植于潜在扩散模型中
【推荐理由】该方法的目标是为所有生成的图像隐藏一个不可见的水印,【摘要】生成图像建模可以实现广泛的应用,结合图像水印和潜在扩散模型。其目标是让所有生成的图像都隐藏一个不可见的水印,该方法快速微调图像生成器的潜在解码器,预先训练的水印提取器从任何生成的图像中恢复隐藏的签名,然后统计测试确定它是否来自生成模型。本文评估了水印在各种生成任务中的隐形性和稳健性。
视觉论文
苦行僧
2023-03-28 19:58 分享
11 收藏 0
最新综述:非刚性场景3D重建的研究现状
使用单个2D图像观测集进行非刚性场景的3D重建是计算机视觉和图形学领域长期研究的领域之一,非刚性重建是机器人、AR/VR或视觉内容创建等下游应用的基础构建块。使用单目相机的关键优势在于其无处不在和对终端用户的可用性,以及与更复杂的相机设置(如立体或多视图系统)相比的易用性。从单个视频或单个视角集合中实现了各种可变形物体和复合场景的密集非刚性3D重建。
视觉
ddghjikle
2023-03-28 19:00 发布
9 收藏 0
谷歌 | 文本到图像扩散模型是零样本分类器
【推荐理由】文本到图像扩散模型具有出色的生成能力。它们所捕捉的表示知识尚未完全理解,本文提出了一种方法来评估扩散模型作为零样本分类器。【摘要】文本到图像扩散模型具有出色的生成能力。这表明它们学习了图像-文本数据的信息表示。它们的表示捕捉到的知识尚未完全理解,本文通过提出一种方法来评估扩散模型作为零样本分类器。
视觉大模型论文
苦行僧
2023-03-28 10:33 分享
6 1 0
北大 | GestureDiffuCLIP: 采用CLIP潜变量的手势扩散模型
针对自动生成风格化共同语言手势的研究引起了越来越多的关注,先前的系统通常允许通过预定义的文本标签或示例动作片段进行风格控制。用于合成具有灵活风格控制的逼真风格化共同语言手势。我们利用大规模对比语言图像预训练(CLIP)模型的能力,从多个输入模态中提取有效的风格表示。并通过自适应实例归一化(AdaIN)层将CLIP风格表示注入到生成器中,作者还设计了手势-转录对齐机制。
视觉论文
苦行僧
2023-03-28 14:31 分享
5 收藏 0
CVPR2023 | 让模型学会自动上采样和下采样
移动计算、自主导航和AR/VR中的许多感知系统都面临着严格的计算限制,尤其是对于高分辨率输入图像的挑战。先前的作品提出了非均匀下采样器,于显著的图像区域,同时保留任务相关的图像信息。对于具有空间标签的任务(如2D/3D物体检测和语义分割),这种扭曲可能会损害性能。计算空间特征,为了实现高效和可微分的反聚焦,本文使用分段双线性映射近似缩放变形。
视觉
ddghjikle
2023-03-28 14:25 发布
5 收藏 0
悉尼大学发布CelebV-Text: 一个大规模的人脸文本视频数据集
一个大规模、多样化和高质量的人脸文本-视频数据集,【摘要】文本驱动的生成模型在视频生成和编辑领域得到了快速发展。由于缺乏一个包含高质量视频和高度相关文本的适当数据集,以人脸为中心的文本到视频生成仍然是一个挑战。一个大规模、多样化和高质量的人脸文本-视频数据集,以促进人脸文本到视频生成任务的研究,每个剪辑都配对了20个使用提出的半自动文本生成策略生成的文本。
数据集视觉论文
苦行僧
2023-03-28 14:26 分享
5 收藏 0
直播
查看更多
热门榜单
  • 活动合作
  • 微信社群
社区指南 电话:(010) 6893 3383 © 2022 北京智源人工智能研究院 ICP备案号:京ICP备19012194号