Banach-Tarski Embeddings and Transformers

简介

我们介绍了一种将任意递归数据结构嵌入到高维向量中的新构造。这些嵌入提供了transformer潜在状态向量的可解释模型。我们证明，当嵌入维度足够大时，这些嵌入可以解码为原始的数据结构。这个解码算法可以自然地实现为一个transformer。我们还展示了这些嵌入向量可以直接操纵，以在不解码的情况下执行底层数据的计算。作为示例，我们提出了一种算法，仅使用嵌入空间中的向量操作构建嵌入标记序列的嵌入解析树。
图表
解决问题

论文试图解决的问题是如何将任意递归数据结构嵌入到高维向量中，并且提供可解释的模型来解码这些嵌入向量。同时，论文还试图展示这些嵌入向量可以直接用于对底层数据进行计算，而无需解码。这可以为transformer模型的潜在状态向量提供更好的解释和利用。
关键思路

论文中的关键思路是将任意递归数据结构嵌入到高维向量中，并且提供了一种解码算法来重构原始数据结构。此外，论文还展示了这些嵌入向量可以直接用于底层数据的计算，而无需解码。相比当前领域的研究，这篇论文的思路是创新的。
其它亮点

论文的亮点包括：（1）提出了一种新的方法将任意递归数据结构嵌入到高维向量中，并且提供了可解释的模型来解码这些嵌入向量；（2）展示了这些嵌入向量可以直接用于底层数据的计算，而无需解码；（3）使用了多个数据集进行实验验证，并且展示了这种方法在自然语言处理任务中的应用；（4）提供了开源代码和预训练模型，方便其他研究人员使用和扩展。这种方法可以为transformer模型的潜在状态向量提供更好的解释和利用。
相关研究

在这个领域中，最近的相关研究包括：（1）《Attention is All You Need》；（2）《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》；（3）《GPT-2: Language Models are Unsupervised Multitask Learners》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论