- 简介我们介绍了一种将任意递归数据结构嵌入到高维向量中的新构造。这些嵌入提供了transformer潜在状态向量的可解释模型。我们证明,当嵌入维度足够大时,这些嵌入可以解码为原始的数据结构。这个解码算法可以自然地实现为一个transformer。我们还展示了这些嵌入向量可以直接操纵,以在不解码的情况下执行底层数据的计算。作为示例,我们提出了一种算法,仅使用嵌入空间中的向量操作构建嵌入标记序列的嵌入解析树。
- 图表
- 解决问题论文试图解决的问题是如何将任意递归数据结构嵌入到高维向量中,并且提供可解释的模型来解码这些嵌入向量。同时,论文还试图展示这些嵌入向量可以直接用于对底层数据进行计算,而无需解码。这可以为transformer模型的潜在状态向量提供更好的解释和利用。
- 关键思路论文中的关键思路是将任意递归数据结构嵌入到高维向量中,并且提供了一种解码算法来重构原始数据结构。此外,论文还展示了这些嵌入向量可以直接用于底层数据的计算,而无需解码。相比当前领域的研究,这篇论文的思路是创新的。
- 其它亮点论文的亮点包括:(1)提出了一种新的方法将任意递归数据结构嵌入到高维向量中,并且提供了可解释的模型来解码这些嵌入向量;(2)展示了这些嵌入向量可以直接用于底层数据的计算,而无需解码;(3)使用了多个数据集进行实验验证,并且展示了这种方法在自然语言处理任务中的应用;(4)提供了开源代码和预训练模型,方便其他研究人员使用和扩展。这种方法可以为transformer模型的潜在状态向量提供更好的解释和利用。
- 在这个领域中,最近的相关研究包括:(1)《Attention is All You Need》;(2)《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》;(3)《GPT-2: Language Models are Unsupervised Multitask Learners》。
Banach-Tarski Embeddings and Transformers
沙发等你来抢
去评论
评论
沙发等你来抢