Looking back at speculative decoding

大型语言模型（LLMs）在近期的人工智能进展中扮演了核心角色，但其体积庞大导致推理速度慢，影响用户体验。为解决这一问题，2022年发布的“通过投机解码加快Transformer推理”介绍了一种名为投机解码的技术，该技术能够显著减少LLM的推理时间。通过并行计算多个标记，投机解码算法在不牺牲输出质量的前提下加速了自回归模型的生成过程，确保输出分布相同。这不仅提高了生成速度，还使得相同的硬件资源可以产生更快的结果，从而在不增加成本的情况下提升用户体验。投机解码已成为提高LLM推理效率的有效方法，并适用于多种优化技术。

本专栏通过快照技术转载，仅保留核心内容