随着语言模型的参数量不断增大,生成文本的效果也越来越好。

 

由于训练数据中包含了海量的人类知识,所以主流的问答模型对于事实类问题(factual questions)基本都能回答正确,并生成一个满意的答案。

 

但如果让语言模型自由发挥,那它可就放飞自我了,在没有任何事实约束和检查的情况下,语言模型生成的文本基本就是胡言乱语。

比如提示文本是「用几句话向一个 6 岁的孩子解释一下登月」,而GPT-3输出的补全文本简直就是一个「复读机」。

虽然用户可能不懂「登月」,但这种明显不对的答案肯定不能用于主观问答。

 

最近DeepMind发表了一项新研究GopherCite,使用根据人类偏好的强化学习(RLHP, reinforcement learning from human preferences)训练了一个可以用于开放式问答的模型。

 

想想你平时碰到不会的问题怎么办?求助于搜索引擎,浏览各种文章,最后自己总结出一个答案来。

 

GopherCite的流程也是类似,它不仅可以针对问题生成答案,在给出答案的同时,还会给出 AI 模型做出这些答案的依据,「引用」具体证据及其出处,以更好地帮助用户判断答案的正确性。支持证据(supporting evidence)主要来自搜索引擎返回的多个文档和用户提供的数据。

 

论文链接:

https://deepmind.com/research/publications/2022/GopherCite-Teaching-Language-Models-To-Support-Answers-With-Verified-Quotes

内容中包含的图片若涉及版权问题,请及时与我们联系删除