【微软亚研院】周明：预训练模型在多语言、多模态任务的进展

过去这五年，对自然语言是一个难忘的五年，它的一个标志就是神经网络全面引入到了自然语言理解。从大规模的语言数据到强有力的算力，加上深度学习，把整个自然语言带到一个新的阶段。

预训练模型，它使自然语言处理由原来的手工调参、依靠 ML 专家的阶段，进入到可以大规模、可复制的大工业施展的阶段，令我们这个领域的人感到非常振奋。而且预训练模型从单语言、扩展到多语言、多模态任务。一路锐气正盛，所向披靡。那么，预训练模型是怎么应用在很多产品里，未来又有哪些发展机会和挑战呢？

预训练模型发展趋势：第一，模型越来越大。比如 Transformer 的层数变化，从12层的 Base 模型到24层的 Large 模型。导致模型的参数越来越大，比如 GPT 110 M，到 GPT-2 是1.5 Billion，图灵是 17 Billion，而 GPT-3 达到了惊人的 175 Billion。一般而言模型大了，其能力也会越来越强，但是训练代价确实非常大。第二，预训练方法也在不断增加，从自回归 LM，到自动编码的各种方法，以及各种多任务训练等。 第三，还有从语言、多语言到多模态不断演进。 最后就是模型压缩，使之能在实际应用中经济的使用，比如在手机端。这就涉及到知识蒸馏和 teacher-student models，把大模型作为 teacher，让一个小模型作为 student 来学习，接近大模型的能力，但是模型的参数减少很多。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【微软亚研院】周明：预训练模型在多语言、多模态任务的进展

评论