▾ 栏目简介
✍🏻 编者按
—
增强大语言模型的逻辑推理能力是个难点,模型更大,就能更好地回答数学推理类问题吗?Nature 数月前的评论文章《 In AI, is bigger always better?》讲述了生成式 AI的不断扩大的趋势下可能存在的问题以及发展节能大模型的可能性,回顾该文章或许能带来一些新启发。文章作者 Anil Ananthaswamy 从对模型扩大化的“合理担忧”“规模问题”“更聪明更小”“节能语言大模型”等方面展开了阐释,由于全文篇幅较长,我们根据内容价值截取了文章的导言和后三个论点进行了编译。
📖 原文中译
大模型越大就越好吗
—

Illustration by Fabio Buonocore
随着生成式人工智能模型变得越来越强大,一些科学家开始提倡更精简、更节能的系统。
但早在 2022 年 6 月,谷歌创建的名为 Minerva 的 LLM就已经逐渐上打破了这些预期。Minerva 答对了 MATH 数据集中 50% 的问题,这一结果震惊了人工智能的研究人员。
“社区中,人们议论纷纷得感慨:结果真的有点令人震惊,”位于华盛顿州雷德蒙德的微软研究院机器学习专家塞巴斯蒂安·布贝克说。
Minerva 的结果暗示了一些研究人员长期以来一直怀疑的事情:更大规模的训练和更多数据可以使LLM仅依靠模式识别来解决本应需要推理的任务。如果是这样,一些人工智能研究人员表示,这种“越大越好”的策略可能会提供一条接近强大人工智能的途径。
但是这个论点存在很多疑点。LLM 仍然会犯明显的错误,并且一些科学家认为,更大的模型只会在回答与其训练数据相关的问题时表现更好,但没有获得回答新问题的能力。
这场辩论现在正在人工智能的前沿展开。商业公司已经从更大的 AI 模型中获得了更好的结果,因此他们正在推出越来越大的 LLM——每个 LLM 都需要花费数百万美元来训练和运行。但是这些模型有很大的缺点:除了它们的输出不可信以及它们可能会加剧错误信息的传播之外,更令人担忧的是它们昂贵的价格并且巨大的能量消耗。
批评者认为,LLM 终究无法模仿或获得稳定回答推理型问题的技能。反之,一些科学家提出发展更小、更节能的模型才是AI 进步的方式——就像大脑学习和建立知识链接的过程
谷歌的人工智能研究员 François Chollet 是怀疑论者之一。他们认为,无论语言大模型变得多大都永远无法具备优秀的推理(或模仿推理)能力来可靠地解决新问题。他说,无论是在训练数据中还是在提示中,LLM 似乎只能使用它以前遇到过的模板进行推理。“它不能迅速理解以前没有见过的东西。”
规模问题
虽然争论还在继续,但人们已经对扩大语言模型的趋势产生了担忧。一是培训大型 LLM 所涉及的数据集、算力和费用将其发展仅局限在拥有巨大计算资源的公司里——也因此限制了大模型的研究方向。OpenAI 尚未确认创建 ChatGPT 的成本,但有人根据计算量估计预训练 GPT-3(ChatGPT 的前身)的成本超过 400 万美元. OpenAI 每个月可能要花费数百万美元来运行 ChatGPT,因为如今免费的聊天机器人要处理大量查询。“我们已经深入了解这个制度,”布贝克说。“只有少数公司拥有超过 1000 亿参数的模型。”
政府开始介入,尽可能提供支持,扩大竞争环境。在法国政府、美国人工智能公司Hugging Face及其他机构的资助下,去年 6 月,一个由约 1,000 名学术志愿者组成的国际团队使价值 700 万美元的计算时间训练了一个具有约 1750 亿参数的模型,名为 BLOOM 。11 月,美国能源部将超级计算时间授予 Rish 及其同事的一个项目,用以构建大型模型来研究其的行为。“我们希望训练一个类似Chinchilla的 700 亿参数模型——不一定是最大的,而是一个性能扩展更有效的模型,”Rish 说。
不管谁来建造它们,LLM 也会引起人们对电力消耗的担忧。例如,谷歌报告称,培训 PaLM 在大约两个月内耗费了大约 3.4 千瓦时。那是大约 300 个美国家庭每年的能源消耗量。谷歌对 PaLM 的培训在俄克拉荷马州数据中心进行,据称该数据中心89% 的能源消耗来自无碳能源,主要由风能和其他可再生能源提供动力。但调查研究表明,AI 行业中大多数模型仍旧主要由化石燃料驱能的电网进行训练的。
更聪明且更小?
然而,如果此类脉冲神经网络的模拟仅在软件中被实现,它们就无法提供真正的效率增益(因为模拟它们的硬件仍在消耗功率)。在神经形态芯片上,这样的计算元素需要被内置到硬件中才能实现它们的好处。
节能语言大模型
与此同时,研究人员正在用尝试不同的方法使现有的 LLM 更节能、更智能。2021 年 12 月,DeepMind 报告了一个名为 RETRO 的系统,它结合了 LLM 与外部数据库。LLM 在推理过程中使用从该数据库中检索到的相关文本来辅助做出预测。DeepMind 的研究人员表明,75 亿参数的 LLM 加上包含 2 万亿令牌的数据库的性能优于参数多 25 倍的 LLM 。研究人员写道,这是一种“我们寻求构建更强大的语言模型的过程中,比原始参数缩放更有效的方法”。
同月,谷歌研究院的科学家报告了另一种大规模提高能源效率的方法。他们的通用语言模型 (Generalist Language Model, GLaM) 有 1.2 万亿个参数. 但是这些参数并不代表一个巨大的神经网络;在内部,它们与其他层一起分布在 64 个较小的神经网络之间。经过训练,LLM 在推理过程中仅使用模型中的两个网络来完成任务;总体而言,LLM 对每个令牌的推理仅使用了其万亿总参数中的8% 。据谷歌称,由于对训练软件和硬件的改进,GLaM 使用了与训练 GPT-3 所需的相同数量的计算资源,但只消耗了大约三分之一的功率。在推理过程中,GLaM 使用了 GPT-3 所需计算资源的一半。当使用相同数量的数据进行训练时,它的表现优于 GPT-3。
然而,为了进一步改进,即使是这些更节能的 LLM 似乎也注定会变得更大,消耗更多的数据和计算。研究人员将观察这些LLM会随着规模的增大而涌现出什么新行为。“我不知道它是否会完全解锁推理能力,”Bubeck 说。“没有人知道。”
原文🔗:https://www.nature.com/articles/d41586-023-00641-w
*声明:原文来自 Nature 官网,如有侵权,可提议撤稿
欢迎大家添加 【OpenBMB】 微信号,即可进入大模型社群交流文章,也可分享推荐更多AI领域的好文!文章时效不限,既可以是讨论密集的的热点时文,也可以是历久弥香的经典前文~

长期开放招聘|含实习
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢