点击蓝字

关注我们

海外智库观察

2024年4月15日,HAI发布其AI(Artificial Intelligence, AI)指数研究经理兼主编Nestor Maslej编写的文章《AI指数:人工智能前沿研究的五个趋势(AI Index: Five Trends in Frontier AI Research)》。文章指出,人们总围绕大语言模型(Large Language Model, LLM),而往往忽视了除LLM之外的前沿人工智能研究取得的巨大进步,并根据最近发布的《人工智能指数的综合报告》总结了2023年人工智能在基础模型、机器人技术、人工智能代理、科学和医学五个领域取得的进展。


斯坦福大学以人为本人工智能研究所

Stanford HAI



人工智能前沿研究的五大趋势

首先,作者指出,人工智能的基础模型在2023年发展得更加灵活。一方面,人工智能基础模型在多个基准测试中达到了新标准:在衡量大语言模型性能的测试MMLU(Mean Multi-Language Understanding, MMLU)中,谷歌的Gemini Ultra首次超过了人类的基准线;在评估大模型数学能力的基准测试MATH中,一个基于GPT-4的模型获得了接近84%满分的分数,离三次国际数学奥林匹克金牌得主设定的90%标准非常接近,而2022年这一测评结果仅为65%;同样,Midjourney在输出“哈利·波特的超现实主义图像”方面也有了显著的进步。另一方面,人工智能模型变得更加灵活。传统的人工智能模型输出内容的范畴极为有限,比如:擅长阅读理解的语言模型在生成图像方面表现不佳,反之亦然。然而,2023年最新发展的前沿人工智能模型打破了这一约束,比如谷歌的Gemini、OpenAI的GPT-4和Anthropic的Claude-3,展现了多模态的灵活性,其不仅能够处理图像和音频,还能够生成代码。其次,非语言模型在2023年中迅速地发展。研究人员利用Transformer架构推动了生成非语言模型的飞速发展,能够生成视频的Emu Video和能够生成音乐的UniAudio则是最新成果,意味着使用者可以用与ChatGPT类似的方法驱动AI模型生成视频和音乐。


最后,作者介绍了另外三项进步。受益于语言建模技术的进步,机器人技术在2023年突飞猛进。2023年发布的两款前沿机器人模型,PaLM-E和RT-2,都经过了基于语言和机器人轨迹数据的组合语料库进行的训练。,PaLM-E不同于早期的机器人,其能够参与某种程度的推理的操作任务,例如按颜色对积木进行分类,它还具备给图片加标题、生成俳句、讲笑话等功能。而RT-2则擅长于适应并应对新环境。这些机器人助手如若得到进一步开发,将有助于协助使用者完成诸如基本家务等任务。第四,人工智能代理也取得了进步。通过AgentBench、MLAgentBench等半自主操作方面的基准测试,人工智能代理存在充当计算机科学助手的前景,然而,它们仍然在一些更复杂的任务上表现不佳,比如在进行在线购物、管理家庭或独立操作计算机上仍有待提升。第五,人工智能推动了科学应用与成果转化。人工智能推动了GraphCast系统的推出,使之能够在一分钟内提供精确的未来10天天气预报;GNoME能够揭示超过200万个先前被人类研究人员忽视的新晶体结构;AlphaMissence能够成功对大约7100万个可能的错义突变中的89%进行分类。此外,人工智能可以执行人类个体难以应对但却对解决一些最复杂科学问题至关重要的复杂计算。在医学方面,新的研究显示,医生可以利用人工智能更好地诊断乳腺癌、解读X射线,并检测更难以发现的癌症。


2024年4月15日,斯坦福大学以人为本人工智能研究所发布其总编辑Shana Lynch撰写的《AI指数:13张图表中的AI现状(AI Index: State of AI in 13 Charts)》。文章从开源和闭源人工智能模型发展、前沿模型的主要开发者、人工智能领域的领导者、人工智能的投资动向、公众对人工智能的认知等八个领域阐释了了2023年人工智能的发展现状。


首先,人工智能模型呈现开源化趋势。2023年新发布的基础模型数量是2022年发布的两倍多,高达149个。其中,65.7%的模型是开源模型,而在2022年,开源模型在新开发模型中的占比为44.4%,2021年仅有33.3%(如图1)。


 

图1


其次,当前开源模型的性能仍低于闭源模型。研究人员对模型进行了10项基准测试,发现闭源模型实现了24.2%的中值性能优势,开源模型与闭源模型的性能差异范围从GSM8K等数学任务上的差异小至4.0%,到AgentBench等代理任务上的差异高达317.7%(如图2)。


图2


第三,当前产业界仍是构建和开发AI模型的主要推动者(如图3)2023年,72%的新基础模型都由企业开发。具体而言,谷歌是发布模型数量最多的企业,超过了其他的从业者,包括Gemini和RT-2(如图4)。事实上,自2019年以来,谷歌一直占据基础模型发布数量榜榜首的位置,其一共发布了40个基础模型。究其原因,训练大语言模型成本的指数级增长阻碍了学术界和政府对于人工智能模型的开发。据估计,训练谷歌的Gemini Ultra所需的成本约为1.91亿美元,而训练OpenAI的GPT-4大致需要7800万美元(如图5)。相比之下,2017年推出的原始Transformer模型的训练成本仅为900美元左右,而这个模型却奠定了几乎所有现代大型语言模型的架构。

 

图3


 

图4

 

图5


第四,在当前的人工智能竞争当中,美国居于领先地位。就机器学习模型而言,自2019年以来,美国一直在人工智能模型方面发挥领导作用,其次领先的国家是中国和英国。2023年,美国这一领先优势尤其明显,其模型数量远超其他国家,高达61个(如图6)。此外,美国的领先地位还表现为其在私人投资方面占据主导地位。2023年,美国的投资额为672亿美元,大约是排名其之后投资最多的国家中国的8.7倍,是英国的17.8倍。从2013年以来的累计投资排行看来,美国仍然居于首位,累计投资额为3352亿美元;其次是中国和英国,分别为1037亿美元和223亿美元(如图7)。

 

图6

 

图7


第五,AI在某些领域超过人类,但在复杂任务上仍存在差距。截至2023年,人工智能在包括阅读理解和视觉推理在内的许多重要的人工智能基准测试中已经达到了人类水平。不过,它在一些基准测试中仅稍逊一筹,比如数学竞赛水平测试(如图8)。

 

图8

第六,生成式AI领域投资大幅增长,至少占据了人工智能领域私人投资的四分之一。尽管2023年人工智能领域私人投资整体下降,但对生成式人工智能的投资却不降反升,达到252亿美元,这一金额几乎是2022年的9倍,约为2019年的30倍(如图9)。


图9


第七,越来越多的企业在其业务中应用人工智能。调查结果显示,55%的企业表示他们在2023年使用人工智能,而这一比例在2022年为50%,2017年为20%。报告还显示,企业对人工智能的使用集中于自动化、丰富个性化内容和获取新客户方面(如图10)。


图10


第八,超过三分之一的民众认为其将被人工智能取代。调查结果显示,包括Z世代和千禧一代在内的年轻一代认为人工智能对他们的影响比像X世代和婴儿潮一代这样的年长一代更为显著。具体而言,66%的Z世代与46%的婴儿潮一代受访者认为人工智能将对他们目前的工作产生重大影响。与此同时,收入较高、受教育程度较高、担任决策角色的个人预见到人工智能对他们的就业产生巨大影响。第九,对人工智能的认知也存在地区差异。69%的澳大利亚人和65%的英国人对人工智能产品存在担忧,而日本仅有23%的民众担心人工智能产品(如图11)。


 

图11


第十,人工智能的监管问题日益受到重视。当前,越来越多的美国监管机构正在通过法规保护公民权益,并加强对人工智能工具和数据使用的管理(如图12)。例如,版权办公室和国会图书馆通过了有关包含由人工智能生成的材料的版权登记指南,而证券交易委员会制定了一项网络安全风险管理策略、治理和事件披露计划。

 

12







[1]https://hai.stanford.edu/news/ai-index-five-trends-frontier-ai-research

[2]https://hai.stanford.edu/news/ai-index-state-ai-13-charts


文章检索:周韫斐

编译:边洁、朱奕霏、杨雨虹

审核:王净宇

排版:赵杨博

终审:梁正、鲁俊群


清华大学人工智能国际治理研究院编
上述信息均根据原文内容整理,谨供读者参考,不代表本机构立场和观点

往期回顾

海外智库丨人工智能国际治理观察第235期

海外智库丨人工智能国际治理观察第234期

海外智库丨人工智能国际治理观察第233期


关于我们

清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。



新浪微博:@清华大学人工智能国际治理研究院

微信视频号:THU-AIIG

Bilibili:清华大学AIIG

内容中包含的图片若涉及版权问题,请及时与我们联系删除