伯克利|Humans in 4D:基于Transformer的视频人体重建和跟踪

基于Transformer的视频人体重建和跟踪。提出了一种基于Transformer的网络架构HMR 2.0和综合的视频跟踪系统4DHumans:实现了高质量的人体重建和跟踪,并在动作识别等任务上取得了领先水平的结果。解决从图像和视频中重建和跟踪人体的问题“通过提出一种基于Transformer的网络架构HMR 2.0和综合的视频跟踪系统4DHumans来实现高质量的重建和跟踪”
2
0
0
神经网络重建3D物体,英伟达发布Neuralangelo|CVPR 2023

🔛智源社区日报关注订阅🔛
Digital Renaissance: NVIDIA Neuralangelo Research Reconstructs 3D Scenes
英伟达团队提出Neuralangelo,从2D视频重建3D大规模场景,将5.5米大卫雕像完美复刻,利用神经网络重建3D物体。
这是将多分辨率3D哈希网格的表征能力和神经表面渲染相结合的全新方法,已被CVPR 2023录用。Ne...
2
0
0
伯克利&微软|用GPT-4进行可控的文本-图像生成

目前的文本到图像生成模型往往难以遵循文本指令,在生成代码片断以图形方式勾勒出文本输入方面表现出显著的精确性,用GPT-4生成的程序性草图来指导基于扩散的文本到图像管道,生成的草图与扩散模型(如ControlNet)的文本指令一起作为参考。使扩散模型能够更好地理解空间关系和特殊概念。训练我们的管道的一个主要挑战是缺乏一个包含对齐的文本、图像和草图的数据集。
1
1
0
Transformers多模态学习综述

Transformers多模态学习综述,本文旨在对面向多模态数据的Transformer技术进行全面调研和综述。对多模态机器学习进行综述。包括Vanilla Transformer、Vision Transformer和多模态Transformer的理论回顾:多模态Transformer应用的回顾,是对基于Transformer的多模态机器学习领域的首次综述。
1
1
0
CVPR 2023 Award Candidate | 自动驾驶通用算法框架UniAD

上海人工智实验室提出了自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)。包括传感器技术、机器学习、路径规划等方面,大部分自动驾驶相关的工作都聚焦在具体的某个模块。自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)首次将检测、跟踪、建图、轨迹预测,这还要从自动驾驶的框架开始分析。
1
1
1
微软等|基于可组合扩散的Any-to-An的生成

CoDi是一种创新的多模态生成模型:能自由生成任意组合的输出模态。并在生成质量方面超越或与单模态合成的最先进方法持平,开发一种能生成任意组合输出形式(如语言、图像、视频或音频)的生成模型。提出在输入和输出空间中对模态进行对齐的方法。使得CoDi能自由地对任意输入组合进行条件生成:并生成任意一组模态,从而实现模态的同步生成,实现了强大的联合模态生成质量,CoDi是一种创新的多模态生成模型。
1
2
0

查看更多 
热门榜单
- 活动合作
- 微信社群