Proofread: Fixes All Errors with One Tap

2024年06月06日
  • 简介
    本文展示了 Proofread,这是一个由 Gboard 服务器端的 LLM 驱动的新型功能,可通过单击实现无缝的句子级和段落级校正,从而提供了重新想象用户打字体验的强大方法。本文介绍了完整的系统,包括数据生成、度量设计、模型调优和部署。为了获得足够质量的模型,我们实现了一个专门针对在线使用情况的数据合成流水线,设计了多方面的度量标准,并采用了两阶段调优方法来获取专用于该功能的 LLM:基础质量的监督微调(SFT)和针对性细化的强化学习(RL)调优方法。具体来说,我们发现在 SFT 阶段,对重写和校对任务进行顺序调优可以获得最佳质量,并提出了全局和直接奖励以在 RL 调优阶段寻求进一步改进。在一个人工标注的黄金数据集上进行了大量实验,结果显示我们调优后的 PaLM2-XS 模型达到了 85.56\% 的好比例。我们通过在 Google Cloud 上使用 TPU v5 为 Pixel 8 设备提供模型服务,每天有数千名活跃用户使用该功能。通过量化、桶推理、文本分割和推测解码,服务延迟显著降低。我们的演示可以在 \href{https://youtu.be/4ZdcuiwFU7I}{Youtube} 上看到。
  • 图表
  • 解决问题
    论文旨在通过使用大型语言模型(LLMs)提供一种强大的方法来重新想象用户的输入体验。具体来说,论文介绍了Proofread,这是一种由Gboard提供支持的新功能,它利用服务器端的LLM,使得用户只需轻轻一点即可进行句子级和段落级的无缝校正。论文的目标是开发一个高质量的数据合成管道,并设计多方面的指标,使用两阶段调整方法来获取专用的LLM,以提高模型的质量。
  • 关键思路
    论文的关键思路是通过精心设计的数据合成管道,使用两阶段调整方法来获取高质量的LLM,从而实现Gboard Proofread功能,该功能可实现句子级和段落级的无缝校正。
  • 其它亮点
    论文使用了两阶段调整方法,分别是有监督的微调(SFT)和强化学习(RL)调整方法,以获取高质量的LLM。在SFT阶段,顺序调整Rewrite和proofread任务取得了最好的质量。在RL调整阶段,论文提出了全局和直接奖励来寻求进一步的改进。在人工标记的黄金数据集上,论文调整后的PaLM2-XS模型实现了85.56%的好比率。论文通过在Google Cloud上的TPU v5上提供模型,将该功能发布到Pixel 8设备上,每天有数千名活跃用户。通过量化、桶推断、文本分割和推测解码等方法,显著降低了服务延迟。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,有人提出了一种使用深度学习技术的自动校对方法,以及一种基于上下文的拼写检查方法。此外,还有一些研究探讨了如何使用LLMs来改进自然语言处理任务,如机器翻译和语音识别。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论