点击蓝字

关注我们


摘要





《Artificial Intelligence Index Report 2025》系统揭示了全球人工智能发展的结构性特征与战略挑战。相较于此前的报告,该报告新增了对人工智能硬件不断变化的格局分析、对推理成本的测算,对人工智能出版和专利趋势的分析,以及企业人工智能训练的新数据,和人工智能在科学和医学中日益增长的使用的报道。报告显示,全球AI研发呈现东亚主导、行业崛起格局,技术突破伴随着算力需求激增与能耗矛盾加剧。多模态泛化能力突破,模型取得突破而伦理风险加剧,对抗性攻击则推升检测成本不断提高。全球治理碎片化,中美欧标准分歧显著,国际间“智能鸿沟”不断扩大。此外,经济、科学与医疗、政策与管理、教育以及舆论等层面均出现AI的身影,人工智能在各个方面的影响不断加深。而报告强调,AI治理需推动技术伦理中心化、创新范式协同化、价值取向普惠化,构建“技术-伦理-治理”三位一体体系,完善全球制度兼容性,促进人机协同的智能文明转型。

本研究揭示三大转向:技术伦理从研发边缘走向治理中心,创新范式从单一竞争转向协同共生,价值取向从效率优先转向普惠包容。


未来研究需聚焦:(1)AI社会影响的评估方法论创新;(2)全球治理体系的制度兼容性设计;(3)人机协同社会的治理范式重构。唯有建立包容性创新生态,方能实现AI技术的普惠价值,推动人类社会向智能文明时代迈进。


图片


目录





Part1  

研究与开发:创新生态的范式重构


1.知识生产的全球化重构

1.1 学术出版体系的指数扩张


2.技术研发的范式突破

2.1 模型架构的复杂化演进

2.2 研发成本的结构性分化


3.GitHub AI项目数量与活跃度



Part2  

技术性能:从专用智能到通用智能的临界跨越


1.基准测试的范式革新

1.1 相关领域持平人类基准

1.2 多模态泛化能力涌现


2.关键技术路线的竞争格局

2.1 生成式AI的技术进步

2.2 推理范式的效率革命



Part3 负责任的AI:伦理治理的制度化探索




1.全球治理体系的碎片化特征


2.技术伦理风险的实证表征

2.1 算法偏见的系统性渗透

2.2深度伪造的治理困境



Part4  

经济影响:生产力革命与就业结构转型


1.宏观经济增长的赋能效应

1.1 全要素生产率的提升路径

1.2 投资与创新的正向循环


2.劳动力市场的结构性变革

2.1 技能需求的代际断裂

2.2 就业形态的数字化转型



Part5  

科学发现与医学革命的AI赋能


1.基础科学的范式转换


2.临床医学的智能化转型


Part6  

政策治理与全球协同的挑战


1.国际规制的路径依赖


2.新兴风险的治理真空



Part7  

教育体系的适应性变革


1.人才培养体系的迭代升级


2.教育范式急需数字化转型



Part8  

公众认知与社会接受度的演变


1.技术接受度的国别区分


2.伦理担忧与政策方向





一、研究与开发:创新生态的范式重构



知识生产的全球化重构




学术出版体系的指数扩张



2013-2023年全球AI学术论文总量达242,000篇,占计算机科学文献比重从21.6%跃升至41.8%。东亚及太平洋地区以34.5%(中国(23.2%)、美国(9.2%))的贡献率主导全球AI研究。值得注意的是,在2021年至2023年引用次数最多的100篇人工智能论文的产出机构中,谷歌每年均位居榜首,而清华大学于2023年以8篇论文与谷歌并列。




专利布局的战略博弈



全球AI专利申请量十年增长32倍,2023年达122,511项。按照国家划分,中国达69.7%而美国为14.2%。韩国人均专利密度达1.73项/万人,凸显技术转化效率优势。



技术研发的范式突破




模型架构的复杂化演进



Meta的旗舰LLM Llama 3.3于2024年夏季发布,其训练数据量约为15万亿个标记。硬件算力需求同步攀升,训练GPT-4能耗碳排放达5184吨,凸显算力-能耗悖论。




研发成本的结构性分化



工业界主导超大规模模型研发,2024年全球参数量前十模型均来自企业。头部企业研发投入呈现幂律分布,谷歌、微软年度研发支出超百亿美元,而中小企业的边际创新成本上升至研发总成本的83%。



GitHub AI项目数量与活跃度


GitHub AI项目数突破430万项,美国贡献率达23.4%但呈下降趋势;而与人工智能相关的项目总加星数持续增长,从2023年的1400万增加到2024年的1770万。2024年美国和中国在GitHub中获得的加星数量分别为2100万和360万。




二、技术性能:从专用智能到通用智能的临界跨越



基准测试的范式革新




相关领域持平人类基准



VCR基准是AI指数中少数几个经常出现的基准之一。以VCR基准为例,2024年7月发布的排行榜中,一个模型获得了85.0的分数,与人类基准持平。这一里程碑表示自2023年以来,该基准提高了4.2%,超越了此前极具有挑战性的基准。此外,2024年9月,OpenAI的o1-preview模型在MMLU上取得了最高纪录分数92.3%。作为对比,2023年3月推出的GPT-4在该基准测试中得分86.4%。值得注意的是,最早在MMLU上测试的模型之一RoBERTa,在2019年仅达到了27.9%(图2.2.4)。这一最新的最先进结果,在五年内显著提高了64.4个百分点。



多模态泛化能力涌现



相关模型在VCR视觉常识推理任务中首次达到人类基线,而Stability的最新语言模型,因其增强的性能而可以在笔记本电脑和智能手机等便携设备上高效运行。这种跨模态对齐能力的突破,标志着AI系统正向通用智能迈进。


关键技术路线的竞争格局




生成式AI的技术进步



2024年,几款先进的AI模型推出,能够从文本输入生成高质量视频。值得注意的包括OpenAI的SORA、Stable video 3D和4D、Meta的Movie Gen以及Google DeepMind的Veo 2。这些模型生成的视频质量远高于2023年的版本。



推理范式的效率革命



新推出的模型增强了推理能力,但也带来经济与延迟成本的增加。例如,o1的速度大约是GPT-4o的40倍,但无论是经济成本还是延迟成本,o1都要比后者高上许多。




三、负责任的AI:伦理治理的制度化探索



全球治理体系的碎片化特征


2016年至2024年,39个国家至少通过了一项与人工智能相关的法律(图6.2.1)。而在报告参考的114个国家中,共计通过了204项与人工智能相关的法律。此外,与人工智能相关的法律总数从2023年的30项增加到2024年的40项,使2024年成为有记录以来仅次于2022年的“立法年”。


2016-2024年116 个特定地理区域通过的与人工智能相关的法案数量



技术伦理风险的实证表征




算法偏见的系统性渗透



许多高级大型语言模型,以GPT-4和Claude 3 Sonnet为例,哪怕存在抑制显性偏见的设计,但依旧会表现出隐性偏见。这些模型不成比例地将负面词汇与黑人个体联系起来,更常将女性与人文领域而非STEM领域联系在一起,并倾向于让男性担任领导职务,从而在决策过程中强化了种族和性别偏见。尽管偏见指标已比标准基准有所改善,但人工智能模型的偏见仍然是一个普遍存在的问题。这种偏差在招聘筛选、信贷评估等场景引发社会公平性质疑。




深度伪造的治理困境



AI合成内容在政治选举中的渗透率达23%,鉴别准确率下降至72%。技术对抗性攻击导致检测成本上升至内容审核预算的45%,形成"道高一尺魔高一丈"的治理悖论。



四、经济影响:生产力革命与就业结构转型



宏观经济增长的赋能效应




全要素生产率的提升路径



2024年,大量实证研究探讨了人工智能的工作场所使用效果。相关研究盖了超过20万名来自多个行业和情境的专业人士,揭示了从10%到45%的一致性生产力提升,特别是在技术、客户服务和创意任务方面效果尤为显著。



投资与创新的正向循环



2024年全球AI私人投资达2523亿美元,生成式AI赛道吸金339亿美元。风险资本向种子轮倾斜度下降,A轮融资占比从45%降至28%,并购市场活跃度创历史新高。


劳动力市场的结构性变革




技能需求的代际断裂



生成式AI技能岗位需求激增390%,自然语言处理工程师薪资溢价达42%。北美地区AI人才缺口率达37%,发展中国家平均缺口率达62%,女性在STEM领域参与度仅为28%。



就业形态的数字化转型



全球71%企业实现AI工具常态化应用,客户服务、供应链管理岗位替代率达23%。新型岗位创造效应显著,AI训练师、算法伦理审查员职位需求年增58%。



五、科学发现与医学革命的AI赋能



基础科学的范式转换


AlphaFold 3模型预测准确率达93.2%,AlphaProteo系统设计的抗癌蛋白药物临床试验成功率提升至12%。这种突破正在重构药物研发范式

AlphaFold 3模型预测



临床医学的智能化转型


LLM在临床知识方面的表现正在提高,特别是对于配备实时推理能力的新模型。此外,如Medprompt这样的提示技术可以在不进行额外微调的情况下显著提升LLM在医疗基准测试中的表现。然而,仍存在一些持续的挑战,包括幻觉问题和多语言性能不一致的问题,而成本与准确率之间也需要权衡。

不同大型语言模型在医疗数据集上的表现


增强型帕累托前沿:准确性与成本的关系




六、政策治理与全球协同的挑战



国际规制的路径依赖


中美欧技术标准分歧持续深化:美国侧重技术创新,欧盟强调权利保护,中国突出内容治理。这种分歧导致全球技术标准制定进程受阻,技术治理话语权争夺加剧。



新兴风险的治理真空


2024年12月19日,联合国安理会召开会议,讨论人工智能在军事环境中的挑战。秘书长安东尼奥·古特雷斯强调,人工智能的快速发展已经超越了现有的治理框架,可能削弱人类对武器系统的控制。而在这些讨论继续的同时,俄乌冲突以及报道中的自主无人机和机器人仍在不断出现。



七、教育体系的适应性变革



人才培养体系的迭代升级


全球三分之二的国家提供或计划提供K-12计算机科学教育。这一比例自2019年以来翻了一倍。非洲和拉丁美洲国家的进步最大,但由于学校缺乏电力,非洲国家的学生获得计算机科学教育的机会最少。同样,美国计算机科学教育方面仍存在显著的不平等,部分学生群体被忽视。


教育范式急需数字化转型


随着人工智能教育对未来劳动力准备的重要性日益增加,美国共有81%的计算机科学教师认为应将人工智能纳入基础计算机科学教育,但只有不到一半的受访者觉得自己具备教授这门课程的能力——高中教师中这一比例为46%,初中教师为44%,小学教师仅为34%。

按年级划分认为具备教授AI能力的教师百分比



八、公众认知与社会接受度的演变



技术接受度的国别区分


据调查显示,2022年至2024年间,公众对人工智能的认识度保持相对稳定。2024年,67%的受访者表示对人工智能有很好的了解,66%的人预计人工智能将在不久的将来深刻改变他们的日常生活。认为人工智能产品和服务利大于弊的全球人口比例略有增加,从2022年的52%上升到2024年的55%。


然而,各国对人工智能利弊的看法差异显著。总体而言,亚洲和拉丁美洲的受访者认为人工智能的好处多于弊端:83%的中国人、70%的墨西哥人和62%的印度受访者认为人工智能产品和服务带来的好处大于危害。相比之下,在欧洲与北美洲,仅有46%的英国人、44%的澳大利亚人、40%的加拿大人和39%的美国人认为人工智能的好处多于弊端。尽管如此,相关总体对人工智能持怀疑态度的国家对于人工智能的接受度大多有所上升。



伦理担忧与政策方向


伴随着AI在科研与制造场景的应用,自动驾驶汽车在技术和普及方面都取得了显著进展。然而,大多数美国人(61%)仍然对这项技术感到恐惧。只有13%的受访者表示信任自动驾驶汽车。


而美国政府官员怎样看AI中的国家政策?据调查显示,大多数地方政策制定者(80.4%)支持更严格的隐私数据法规,而仅有33.9%的受访者支持工资补贴以抵消工资下降的影响。


主理人丨刘典
编辑丨余洋(扬州大学)
排版丨李森(北京工商大学)

审核丨梁正 鲁俊群



关 于 我 们



清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。



新浪微博:@清华大学人工智能国际治理研究院

微信视频号:THU-AIIG

Bilibili:清华大学AIIG

内容中包含的图片若涉及版权问题,请及时与我们联系删除