点击蓝字

关注我们



生成式AI技术突破虽展现出巨大潜力,但其“黑箱”特性、固有幻觉风险也令社会对其可信度与安全性产生深刻担忧。如何能从工程层面构建出真正负责、可信的人工智能系统,以满足社会、公众与产业对技术的期待?为深入探讨这一关键议题,11月28日上午,2025人工智能合作与治理国际论坛“负责任人工智能的技术方法”专题论坛在墨尔本大学成功举办。

本场专题论坛由墨尔本大学连接中心执行主任爱德华·霍维Eduard Hovy)、墨尔本大学计算机与信息系统学院副教授萨拉·埃尔法尼Sarah Erfani)、墨尔本大学计算机与信息系统学院数字创新高级讲师卡伦·韩Caren Han)、墨尔本大学工程与信息技术学院教授汤姆·德拉蒙德Tom Drummond)应邀参加专题论坛并作精彩发言。本场论坛由墨尔本大学连接中心执行主任爱德华·霍维主持。 

爱德华·霍维指出,当前关于“可信赖人工智能”的争论,常陷入“必须全面普及”与“应当彻底禁止”的二元对立僵局,这种非此即彼的思维无助于问题的解决。因此,我们首先必须重新定义“可信赖”的含义:这并非要求人工智能永不犯错(这既不现实也非人类互信的基础),而是指其在拥有与人类相似的知识和目标时,能做出与人类一致的选择,且其行为逻辑能被理解与评判。这最终指向“可信任人工智能”的真正核心:一个真正可信赖的人工智能,必须能够以人类可接受的方式,清晰阐明其决策所依据的初始知识、行动目标与内部推理过程。构建这样的解释能力虽极为复杂,但却是打破当前僵局、让人类能够像评估彼此一样,基于合理理由来信任或质疑人工智能的关键技术路径。

爱德华·霍维发言


萨拉·埃尔法认为,“负责任的人工智能”在技术层面应当具备强自适应性、应对不确定性、抵御恶意操纵、提供稳定输出等基本技术特征。但是目前,大多数提升人工智能模型可靠性的研究方法主要聚焦于单阶段训练、事后修复等方法,这些技术手段无法从根源上打造“负责任”的人工智能模型。要在现实场景下提升人工智能模型的安全性能,埃尔法尼建议从打开模型内部的“黑箱”、监测模型演化过程、明确模型不确定性边界等方面展开更多研究,最终采取主动预防而非被动响应的方式,减少模型安全对于人工监督依赖,提升模型面对不确定性环境的鲁棒性,最终将“负责任的人工智能”作为模型的内置属性。

萨拉·埃尔法发言

卡伦·韩提出,当前多模态大语言模型的发展普遍陷入一种“全模态堆砌”的误区,即盲目追求将所有模态数据不加区分地输入系统,这种做法并不利于构建真正可信的AI。为说明这一点,她现场展示了一个情绪识别示例:当仅播放音频时,听者多判断为“恐惧”;而在同步观看视频后,观众则一致认为是“悲伤”。她强调,问题的关键并不在于寻找唯一正确答案,而在于认识到在不同任务中,各模态的重要性是动态且随情境变化的。因此,一个可信的多模态AI应当具备类似人类的能力,能够智能地筛选并聚焦于关键模态信息。卡伦进一步提出,多模态可信AI的验证核心,必须从追求静态的“准确性”转向实现动态的“选择性注意”。换言之,真正可信的系统应能依据具体任务目标,以可理解、可评估的方式,动态调整对不同模态信息的关注度与权衡策略。

卡伦·韩

汤姆·德拉蒙德强调,当前大型语言模型本质上是通过统计预测而非真正理解生成内容,这种机制导致模型不可避免地会复制和放大人类社会固有的文化偏见。汤姆表示,这些模型的训练数据主要来源于网络爬虫,其中包含大量源自美国等特定文化背景的内容,导致模型在回答问题时带入了文化偏见。更令人担忧的是,当提示词中包含某些保护群体的前缀时,模型会本能地生成带有偏见的后续内容——因为它们只关注统计上的下一个词,而不在乎内容的伦理影响。当前的安全方法过于复杂且低效,因为这些庞大模型依靠“肌肉记忆”而非结构化知识运作。换句话说,它们没有关于事实的明确记忆,只有一种隐性的统计模式。汤姆建议将"闭卷考试"模式,转变为"开卷考试"模式。即构建更小型的语言模型,并让其能够实时访问外部知识库。这种架构可以显著减少模型参数规模,大幅降低训练能耗。 

汤姆·德拉蒙德发言

在圆桌讨论环节,嘉宾相继围绕可信赖AI的技术实现、多模态模型、安全对齐等议题展开了讨论。爱德华·霍维指出,随着社会关注度提升,在技术因素之外,成本与伦理等视角也日益成为可信赖AI研发必须考量的因素。这也意味着,AI技术人员已无法仅封闭在“象牙塔”内做纯技术研究——全世界都在发问应当如何应对偏见、隐私泄露与“幻觉”问题?它们正迫使AI从业者真正走入现实,成为社会对话的参与者。萨拉・埃尔法尼认为,AI安全的多条技术路径仍处起步阶段,尚未展现出清晰的“最优路径”。虽然“Scientist AI”和“负责任AI”等尝试基于设计保障安全(Safety by Design),但距离真正安全系统尚远。OpenAI、Google Deepmind等推动的对齐技术都将对人工智能安全起到促进作用。当前,多种技术路径协同共进才能更好促进人工智能安全。卡伦·韩表示多模态模型技术发展仍面临三大挑战,其一是模型训练严重依赖来自互联网的粗粒度图文对齐数据,缺乏对模态关联与重要性的精细理解;其二是大多数研究者只能微调由巨头预训练的“黑箱”主干模型,严重限制了架构的灵活性与可控性;其三是行业缺乏能够有效评估模态贡献度与跨模态一致性的可靠方法与标准。构建此种能力需结合提示工程、指令微调与人类反馈等技术路径,使AI能持续优化其模态选择策略。汤姆·德拉蒙德提出,通过将语言能力与知识存储分离,小模型只需掌握基本语法和生成连贯句子的能力,而具体知识则从外部数据库实时获取。这种方法不仅能提高能源效率,还能使模型获取更准确、更新颖的信息,为构建更加可靠的人工智能系统提供新路径。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除