每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos
Wen-Hsuan Chu,
Lei Ke,
Katerina Fragkiadaki
2024年05月03日
现有的VLM可以跟踪野外2D视频对象,而当前的生成模型为合成高度不受限制的2D到3D对象提供了强大的视觉先验。在这一令人兴奋的进展基础上,我们提出了DreamScene4D,这是第一个可以从单目野外视频生成多个对象的三维动态场景的方法,这些对象在遮挡和新视角下具有大的物体运动。我们的关键洞察是设计了一种“分解-重组”方案,以分解整个视频场景和每个对象的3D运动。我们首先通过使用开放词汇掩模跟踪器和适应的图像扩散模型来分割、跟踪和完成视频中的对象和背景,从而分解视频场景。每个对象轨迹被映射到一组3D高斯函数,在空间和时间上变形和移动。我们还将观察到的运动分解为多个组件以处理快速运动。可以通过重新渲染背景以匹配视频帧来推断相机运动。对于对象运动,我们首先利用对象中心帧的渲染损失和多视角生成先验来建模对象的中心变形,然后通过将渲染输出与感知像素和光流进行比较来优化对象中心到世界坐标系的变换。最后,我们重组背景和对象,并使用单目深度预测指导优化相对对象比例。我们展示了在具有挑战性的DAVIS、Kubric和自拍视频上的广泛结果,详细说明了一些限制,并提供未来的方向。除了4D场景生成,我们的结果表明,DreamScene4D通过将推断的3D轨迹投影到2D上,实现了精确的2D点运动跟踪,而从未明确训练过这样做。
18
热度
CV
PDF
解读
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
Badri Narayana Patro,
Vijay Srinivas Agneeswaran
2024年04月24日
序列建模是各个领域中至关重要的一个领域,包括自然语言处理(NLP)、语音识别、时间序列预测、音乐生成和生物信息学等。循环神经网络(RNN)和长短期记忆网络(LSTM)在机器翻译、命名实体识别(NER)等序列建模任务中一直处于主导地位。然而,transformers的出现导致了这种范式的转变,因为它们具有更好的性能。然而,transformers存在$O(N^2)$的注意力复杂度和处理归纳偏差的挑战。已经提出了几种变体来解决这些问题,它们使用谱网络或卷积,在各种任务上表现良好。然而,它们仍然难以处理长序列。状态空间模型(SSM)已经成为这种情况下序列建模范式的有希望的替代方法,特别是随着S4及其变体(如S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba等)的出现。在本调查中,我们根据三种范例,即门控架构、结构架构和循环架构,对基础SSM进行分类。本调查还强调了SSM在各个领域的多样化应用,包括视觉、视频、音频、语音、语言(特别是长序列建模)、医学(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析,包括表格数据。此外,我们还总结了SSM在基准数据集(如Long Range Arena(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2以及视频数据集,如Breakfast、COIN、LVU和各种时间序列数据集)上的性能。Mamba-360工作的项目页面可在此网页上找到:\url{https://github.com/badripatro/mamba360}。
17
热度
ML
AI
CV
PDF
解读
Deep SE(3)-Equivariant Geometric Reasoning for Precise Placement Tasks
Ben Eisner,
Yi Yang,
Todor Davchev,
...
2024年04月20日
许多机器人操作任务可以被视为几何推理任务,代理人必须能够精确地将一个物体操作到满足任务的位置,从一组初始条件开始。通常,任务成功是基于两个物体之间的关系定义的,例如将杯子挂在架子上。在这种情况下,解决方案应该对物体的初始位置以及代理人具有等变性,并且对相机的姿态具有不变性。这对于试图通过直接从高维演示中学习来解决此任务的学习系统构成了挑战:代理人必须学会既具有等变性又具有精度,这在没有关于问题的归纳偏差的情况下可能是具有挑战性的。在这项工作中,我们提出了一种精确的相对姿态预测方法,该方法可以被证明是SE(3)等变的,可以仅从少量演示中学习,并且可以跨越一类物体的变化进行泛化。我们通过将问题分解为学习场景的SE(3)不变的任务特定表示,然后使用新的几何推理层来解释这个表示,这些层可以被证明是SE(3)等变的,来实现这一点。我们证明,我们的方法可以在模拟放置任务中产生比以前使用相同数量数据训练的方法更精确的放置预测,并且可以准确地表示从真实世界演示中收集的相对放置关系数据。补充信息和视频可以在https://sites.google.com/view/reldist-iclr-2023找到。
13
热度
Rob
CV
ML
PDF
解读
Capabilities of Gemini Models in Medicine
Khaled Saab,
Tao Tu,
Wei-Hung Weng,
...
2024年04月29日
在各种医疗应用中取得卓越表现对于人工智能来说是一个相当大的挑战,需要先进的推理能力、及时的医学知识和对复杂多模态数据的理解。拥有多模态和长上下文推理方面强大通用能力的Gemini模型在医学领域具有激动人心的潜力。基于这些Gemini的核心优势,我们推出了Med-Gemini,这是一系列高度专业化的多模态模型,具有无缝使用网络搜索的能力,并且可以通过自定义编码器高效地适应新的模态。我们在14个医学基准测试中评估了Med-Gemini,在其中10个基准测试中取得了新的最优表现,并且在每个可以进行直接比较的基准测试中超越了GPT-4模型系列,常常领先很多。在流行的MedQA (USMLE) 基准测试中,我们表现最佳的Med-Gemini模型通过一种新颖的不确定性引导搜索策略实现了91.1%的最优表现。在7个多模态基准测试中,包括NEJM图像挑战和MMMU(健康和医学),Med-Gemini相对于GPT-4V平均提高了44.5%。我们通过从长时间的去识别的健康记录中进行针对性检索任务和医学视频问答的最佳表现,展示了Med-Gemini长上下文能力的有效性,超越了仅使用上下文学习的先前专门方法。最后,Med-Gemini的表现表明了它在医学文本摘要等任务上超越了人类专家,并展示了在多模态医学对话、医学研究和教育方面的有前途的潜力。综合来看,我们的结果为Med-Gemini的潜力提供了令人信服的证据,但在这个安全关键的领域进行实际部署之前,进一步的严格评估至关重要。
AI
NLP
CV
PDF
解读