标题:脸书|Decoupled Transformer for Scalable Inference in Open-domain Question Answering(基于可扩展推理的解耦变换器的开放域问答)

推荐理由:一种适用于在线开放域问答系统的变换器高效优化方法

简介:大型变换器模型用于开放域问答(QA),在机器阅读理解(MRC)上达到最先进的结果。然而,用于推理变换器的计算成本很高,这使得它们难以应用于在线QA系统,例如语音助手。为了降低计算成本和延迟,我们提出将MRC变换器模型解耦为输入组件和交叉组件。解耦允许表示计算的一部分离线执行并缓存以供在线使用。为了保持解耦变换器的精度,我们设计了一个来自标准变换器模型的知识蒸馏目标。而且,我们引入了学习表示压缩层,有助于减少四倍缓存的存储要求。在SQUAD 2.0数据集的实验中, 与标准变压器相比,以F1分数差1.2分的代价解耦变压器减少了30-40%的开放域MRC计算量的成本和延迟。

论文地址:https://arxiv-download.xixiaoyao.cn/pdf/2108.02765.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除