每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?
Yaodong Yu,
Sam Buchanan,
Druv Pai,
...
2023年11月22日
本文认为,表示学习的自然目标是将数据的分布(例如令牌集)压缩和转换为低维高斯混合模型,该模型支持不相干的子空间。这种表示的好坏可以通过一种基于原则的度量方法来评估,称为稀疏率减少,该方法同时最大化学习表示的内在信息增益和外在稀疏性。从这个角度来看,包括transformers在内的流行深度网络架构可以被视为实现迭代方案以优化这种度量方法。特别地,我们从这个目标的不同部分中得出transformer块的结论:多头自注意力操作通过实现特征编码率的近似梯度下降步骤来压缩表示,随后的多层感知机稀疏特征。这导致了一系列名为CRATE的白盒transformer-like深度网络架构,它们在数学上是完全可解释的。我们通过去噪和压缩之间的新颖联系表明,上述压缩编码的反向过程可以通过同一类CRATE架构实现。因此,所得到的白盒架构对编码器和解码器都是通用的。实验表明,尽管这些网络非常简单,它们确实学会了压缩和稀疏大规模实际图像和文本数据集的表示,并且实现了非常接近高度工程化的transformer-based模型(ViT,MAE,DINO,BERT和GPT2)的性能。我们相信,所提出的计算框架展示了通过数据压缩的统一视角来弥合深度学习理论和实践之间巨大差距的巨大潜力。代码可在以下网址找到:https://ma-lab-berkeley.github.io/CRATE。
5313
热度
ML
NLP
CV
PDF
解读
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Keen You,
Haotian Zhang,
Eldon Schoop,
...
2024年04月08日
最近,多模态大语言模型(MLLMs)的发展引人注目,然而,这些通用领域的MLLMs在理解和有效地与用户界面(UI)屏幕交互方面往往表现不佳。在本文中,我们提出了Ferret-UI,这是一个新的MLLM,专门为增强对移动UI屏幕的理解而设计,具备指称、接地和推理能力。考虑到UI屏幕通常具有更长的纵横比,并包含比自然图像更小的感兴趣对象(例如图标、文本),我们在Ferret上增加了“任意分辨率”功能,以放大细节并利用增强的视觉特征。具体来说,每个屏幕根据原始纵横比分为2个子图像(即,纵向分割用于横屏屏幕,横向分割用于竖屏屏幕)。在发送到LLMs之前,两个子图像分别进行编码。我们从广泛的基本UI任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本经过格式化处理,以区域注释的形式进行指令跟随,以便进行精确的指称和接地。为增强模型的推理能力,我们还编制了一个高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对策划的数据集进行训练后,Ferret-UI表现出对UI屏幕的出色理解能力和执行开放式指令的能力。为了评估模型,我们建立了一个综合基准,涵盖了所有上述任务。Ferret-UI不仅在大多数开源UI MLLMs之上表现出色,而且在所有基本UI任务上都超过了GPT-4V。
913
热度
CV
NLP
HCI
PDF
解读