▾   栏目简介 

 

如果说之前推出的【论文速读】是领读严谨的大模型实证研究论文,那么【好文译递】则想传递 观点性、发散性的议论文章,只是静静地完整呈现译文,任您自由地品读和思考。

 


✍🏻 编者按 

增强大语言模型的逻辑推理能力是个难点,模型更大,就能更好地回答数学推理类问题吗?Nature 数月前的评论文章《 In AI, is bigger always better?》讲述了生成式 AI的不断扩大的趋势下可能存在的问题以及发展节能大模型的可能性,回顾该文章或许能带来一些新启发。文章作者 Anil Ananthaswamy 从对模型扩大化的“合理担忧”“规模问题”“更聪明更小”“节能语言大模型”等方面展开了阐释,由于全文篇幅较长,我们根据内容价值截取了文章的导言和后三个论点进行了编译


 

 📖 原文中译 

大模型越大就越好吗

Illustration by Fabio Buonocore

随着生成式人工智能模型变得越来越强大,一些科学家开始提倡更精简、更节能的系统。

可以生成流畅文本的人工智能系统近期技术行业的新星,例如 OpenAI 的 ChatGPT。但是,当面对需要推理才能回答的数学问题时,这些 LLM 往往容易出错。例如这道代数题:
有一条平行于 y = 4 x + 6的直线穿过 (5, 10)。这条线的 y轴截距的 y坐标是多少?
尽管 LLM 有时可以正确回答这类问题,但他们通常难以给出正确回答。在一项针对其推理能力的早期测试中,ChatGPT 在面对来自“MATH”中学水平数据集的数学例题时,仅答对了 26%。
这是意料之中的:给定输入文本后,大型语言模型只是根据模型训练数据中单词、符号和句子的统计规律生成新文本。如果仅靠学习语言模式就可以让大型语言模型可靠地模仿数学推理,那将令人讶异。

但早在 2022 年 6 月,谷歌创建的名为 Minerva 的 LLM就已经逐渐上打破了这些预期。Minerva 答对了 MATH 数据集中 50% 的问题,这一结果震惊了人工智能的研究人员。

“社区中,人们议论纷纷得感慨:结果真的有点令人震惊,”位于华盛顿州雷德蒙德的微软研究院机器学习专家塞巴斯蒂安·布贝克说。

Minerva 的优势在于它接受过数学相关文本的培训。但谷歌的研究提出了该模型表现如此出色的另一个重要原因——其庞大的规模。它的规模大小大约是 ChatGPT 的三倍。

Minerva 的结果暗示了一些研究人员长期以来一直怀疑的事情:更大规模的训练和更多数据可以使LLM仅依靠模式识别来解决本应需要推理的任务。如果是这样,一些人工智能研究人员表示,这种“越大越好”的策略可能会提供一条接近强大人工智能的途径。

但是这个论点存在很多疑点。LLM 仍然会犯明显的错误,并且一些科学家认为,更大的模型只会在回答与其训练数据相关的问题时表现更好,但没有获得回答新问题的能力。

这场辩论现在正在人工智能的前沿展开。商业公司已经从更大的 AI 模型中获得了更好的结果,因此他们正在推出越来越大的 LLM——每个 LLM 都需要花费数百万美元来训练和运行。但是这些模型有很大的缺点:除了它们的输出不可信以及它们可能会加剧错误信息的传播之外,更令人担忧的是它们昂贵的价格并且巨大的能量消耗。

批评者认为,LLM 终究无法模仿或获得稳定回答推理型问题的技能。反之,一些科学家提出发展更小、更节能的模型才是AI 进步的方式——就像大脑学习和建立知识链接的过程

谷歌的人工智能研究员 François Chollet 是怀疑论者之一。他们认为,无论语言大模型变得多大都永远无法具备优秀的推理(或模仿推理)能力来可靠地解决新问题。他说,无论是在训练数据中还是在提示中,LLM 似乎只能使用它以前遇到过的模板进行推理。“它不能迅速理解以前没有见过的东西。”

吞下大量的训练数据,以至于语言的统计规律本身就足以让其储备的答案来回答近似的问题。这可能就是 LLM 能做到的最好地步。

规模问题

虽然争论还在继续,但人们已经对扩大语言模型的趋势产生了担忧。一是培训大型 LLM 所涉及的数据集、算力和费用将其发展仅局限在拥有巨大计算资源的公司里——也因此限制了大模型的研究方向。OpenAI 尚未确认创建 ChatGPT 的成本,但有人根据计算量估计预训练 GPT-3(ChatGPT 的前身)的成本超过 400 万美元. OpenAI 每个月可能要花费数百万美元来运行 ChatGPT,因为如今免费的聊天机器人要处理大量查询。“我们已经深入了解这个制度,”布贝克说。“只有少数公司拥有超过 1000 亿参数的模型。”

政府开始介入,尽可能提供支持,扩大竞争环境。在法国政府、美国人工智能公司Hugging Face及其他机构的资助下,去年 6 月,一个由约 1,000 名学术志愿者组成的国际团队使价值 700 万美元的计算时间训练了一个具有约 1750 亿参数的模型,名为 BLOOM 。11 月,美国能源部将超级计算时间授予 Rish 及其同事的一个项目,用以构建大型模型来研究其的行为。“我们希望训练一个类似Chinchilla的 700 亿参数模型——不一定是最大的,而是一个性能扩展更有效的模型,”Rish 说。

不管谁来建造它们,LLM 也会引起人们对电力消耗的担忧。例如,谷歌报告称,培训 PaLM 在大约两个月内耗费了大约 3.4 千瓦时。那是大约 300 个美国家庭每年的能源消耗量。谷歌对 PaLM 的培训在俄克拉荷马州数据中心进行,据称该数据中心89% 的能源消耗来自无碳能源,主要由风能和其他可再生能源提供动力。但调查研究表明,AI 行业中大多数模型仍旧主要由化石燃料驱能的电网进行训练的。


 

更聪明且更小?

因此,对于许多科学家来说,降低 LLM 的能源消耗——使神经网络更小、更高效,甚至更智能——成为当前迫切的需求。除了训练 LLM 的能源成本(虽然代价巨大,但只是一次性的),推理问答所需的能源会随着用户数量的增加而激增。大型科技公司对模型的使用成本暂且未置一词。然而,Hugging Face 透露,截止BLOOM 模型在谷歌云平台上部署的第18 天,它已回答了 230,768 次查询(比 ChatGPT 少很多,后者在 2 月份达到了每月 1 亿活跃用户),平均消耗了1,664 瓦。
相比之下,我们自己的大脑比任何 LLM 都更复杂更大,有 860 亿个神经元和大约 100 万亿个突触连接。然而,瑞士巴塞尔 Friedrich Miescher 生物医学研究所的 Friedemann Zenke 说,人脑消耗的功率仅在 20 到 50 瓦之间。
因此,一些研究人员希望通过模仿大脑的各个方面帮助 LLM 和其他神经网络变得更小、更智能和更高效。
大脑整体的智力和效率来源之一可能是它的环式或反馈连接。LLM 本质上是“前馈”网络。这意味着信息是单向流动的:从输入层开始,经过 LLM 的层,再到输出层。大脑以不同的方式产生连接。例如,在人类视觉系统中,神经元将更早接收到视觉信息的大脑区域与更靠后的区域进行连接。但也有反馈连接允许神经元之间反向传递信息。“在[人类]视觉系统中,反馈连接的数量可能是前馈连接数量的十倍,”米切尔说,但 LLM 没有反馈连接。
包含前馈和反馈连接的人工神经网络通常被称为递归神经网络 (RNN)。这样的网络(与前馈 LLM 不同)可以识别数据中随时间变化的规律。这是“所有自然智能如何体验世界和学习的基础”,纽约城西奈山伊坎医学院的计算神经科学家 Kanaka Rajan 说道。但 RNN 也面临挑战,Rajan 说。例如,它们训练起来既困难又缓慢,因此很难将它们扩展到当前 LLM 的规模。
大脑高效的另一个原因是生物神经元大多数时候保持静止——它们只偶尔有活跃峰值。相比之下,大多数神经网络中的人工神经元被设置为持续开启。研究人员正在研究高脉冲(模仿真实神经元)的人工神经元,但很难将标准神经网络的算法训练成使用脉冲神经元的网络。尽管如此,小型数据集(例如,10,000个用于训练网络识别语音数字的录音)的研究表明,具有脉冲神经元的 RNN 表现优于具有标准神经元的 RNN,并且在理论上,前者计算效率高出后者三个数量级. “进展迅速且令人印象深刻,”在该领域工作的荷兰阿姆斯特丹国家数学与计算机科学研究所 (CWI) 的 Sander Bohté 说。

然而,如果此类脉冲神经网络的模拟仅在软件中被实现,它们就无法提供真正的效率增益(因为模拟它们的硬件仍在消耗功率)。在神经形态芯片上,这样的计算元素需要被内置到硬件中才能实现它们的好处。


 

节能语言大模型

与此同时,研究人员正在用尝试不同的方法使现有的 LLM 更节能、更智能。2021 年 12 月,DeepMind 报告了一个名为 RETRO 的系统,它结合了 LLM 与外部数据库。LLM 在推理过程中使用从该数据库中检索到的相关文本来辅助做出预测。DeepMind 的研究人员表明,75 亿参数的 LLM 加上包含 2 万亿令牌的数据库的性能优于参数多 25 倍的 LLM 。研究人员写道,这是一种“我们寻求构建更强大的语言模型的过程中,比原始参数缩放更有效的方法”。

同月,谷歌研究院的科学家报告了另一种大规模提高能源效率的方法。他们的通用语言模型 (Generalist Language Model, GLaM) 有 1.2 万亿个参数. 但是这些参数并不代表一个巨大的神经网络;在内部,它们与其他层一起分布在 64 个较小的神经网络之间。经过训练,LLM 在推理过程中仅使用模型中的两个网络来完成任务;总体而言,LLM 对每个令牌的推理仅使用了其万亿总参数中的8% 。据谷歌称,由于对训练软件和硬件的改进,GLaM 使用了与训练 GPT-3 所需的相同数量的计算资源,但只消耗了大约三分之一的功率。在推理过程中,GLaM 使用了 GPT-3 所需计算资源的一半。当使用相同数量的数据进行训练时,它的表现优于 GPT-3。

然而,为了进一步改进,即使是这些更节能的 LLM 似乎也注定会变得更大,消耗更多的数据和计算。研究人员将观察这些LLM会随着规模的增大而涌现出什么新行为。“我不知道它是否会完全解锁推理能力,”Bubeck 说。“没有人知道。”

原文🔗:https://www.nature.com/articles/d41586-023-00641-w

*声明:原文来自 Nature 官网,如有侵权,可提议撤稿


 ▾   好文征集 

欢迎大家添加 【OpenBMB】 微信号,即可进入大模型社群交流文章,也可分享推荐更多AI领域的好文!文章时效不限,既可以是讨论密集的的热点时文,也可以是历久弥香的经典前文~

 


官方网站
https://www.openbmb.org
 
GitHub
https://github.com/OpenBMB
https://github.com/thunlp

长期开放招聘|含实习

开发岗  |  算法岗  |  产品岗

交流QQ群
735930538

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除