作者:François Mercier 机构:蒙特利尔大学米拉分校 简介:尽管有细微的差别,但我的结果与最初的ELECTRA的实现类似。与两种实现的原始论文相比,仅需14M的参数,ELECTRA-Small的性能就胜于其他产品,在绝对性能方面,采用以前的一些SOTA(例如GPT)或其他方法进行的并发预训练方法,使用知识提炼的有效方法,例如DistilBERT。考虑到计算成本,ELECTRA明显优于包括BERT和TinyBERT在内的所有比较方法。因此,这项工作支持声称ELECTRA在低资源设置下可以在计算成本方面实现高水平的性能。此外,生成器容量比Clark等人的建议要高,且判别器可以由于无法区分输入是否为伪造而崩溃。因此,尽管ELECTRA比GAN更容易训练,它似乎对生成器和判别器之间的容量分配很敏感。 代码:可通过此链接获得代码和预训练模型https://github.com/cccwam/rc2020_electra 论文地址:https://arxiv.org/pdf/2104.02756.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢