Banach-Tarski Embeddings and Transformers

Joshua Maher
17
热度
ML
NLP
cs.DS
2023年11月15日
  • 简介
    我们介绍了一种将任意递归数据结构嵌入到高维向量中的新构造。这些嵌入提供了transformer潜在状态向量的可解释模型。我们证明,当嵌入维度足够大时,这些嵌入可以解码为原始的数据结构。这个解码算法可以自然地实现为一个transformer。我们还展示了这些嵌入向量可以直接操纵,以在不解码的情况下执行底层数据的计算。作为示例,我们提出了一种算法,仅使用嵌入空间中的向量操作构建嵌入标记序列的嵌入解析树。
  • 图表
  • 解决问题
    论文试图解决的问题是如何将任意递归数据结构嵌入到高维向量中,并且提供可解释的模型来解码这些嵌入向量。同时,论文还试图展示这些嵌入向量可以直接用于对底层数据进行计算,而无需解码。这可以为transformer模型的潜在状态向量提供更好的解释和利用。
  • 关键思路
    论文中的关键思路是将任意递归数据结构嵌入到高维向量中,并且提供了一种解码算法来重构原始数据结构。此外,论文还展示了这些嵌入向量可以直接用于底层数据的计算,而无需解码。相比当前领域的研究,这篇论文的思路是创新的。
  • 其它亮点
    论文的亮点包括:(1)提出了一种新的方法将任意递归数据结构嵌入到高维向量中,并且提供了可解释的模型来解码这些嵌入向量;(2)展示了这些嵌入向量可以直接用于底层数据的计算,而无需解码;(3)使用了多个数据集进行实验验证,并且展示了这种方法在自然语言处理任务中的应用;(4)提供了开源代码和预训练模型,方便其他研究人员使用和扩展。这种方法可以为transformer模型的潜在状态向量提供更好的解释和利用。
  • 相关研究
    在这个领域中,最近的相关研究包括:(1)《Attention is All You Need》;(2)《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》;(3)《GPT-2: Language Models are Unsupervised Multitask Learners》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论