直播回顾

《追AI的人》系列直播第53期邀请了清华大学人工智能学院助理教授董胤蓬老师分享《多模态大模型的安全与对齐》。

以下为直播的文字回放,共计10011字。

图片直播简介回顾:
从红队攻防到安全对齐,AI模型如何“强而可信”?清华大学董胤蓬分享多模态大模型的安全与对齐|《追AI的人》第53期直播来咯



董 胤 蓬

清华大学人工智能学院助理教授;清华大学优秀博士后;发表国际顶级学术会议和期刊论文五十余篇,谷歌学术引用10000余次。

分享大纲


🔸多模态大模型及安全性问题
🔸多模态大模型的对抗攻击方法
🔸多模态大模型可信评测基准
🔸大模型安全对齐




首先,我将简要介绍大模型,特别是多模态大模型的安全性。目前,大语言模型应用广泛,如ChatGPT和通义千问等,可以帮助我们解决各种任务。除了大语言模型,人工智能也在更好地融合多种模态数据,特别是视觉与语言融合的多模态大模型,是一种非常主流的基础模型。 



今天我们重点介绍多模态大语言模型,它与大语言模型基础相似,但加入了视觉输入。典型的架构中输入包括图像和语言指令;图像通过视觉模型,如CLIP进行特征提取;提取特征后,通常通过特定层映射到语言模型输入的离散文本空间,以实现视觉模态与语言模型输入模态的对齐。随后将视觉与语言信息融合,输入到大语言模型,以生成所需指令,完成图像理解和推理等任务。 



扩散模型也是当前主流的生成式模型。扩散模型之前较多研究集中在图像或视频生成领域。其目标是从完全随机的噪声开始,通过逐步降低噪声实现去噪过程,并最终生成与真实数据分布一致的原始样本。在训练中,我们提供一些真实数据实施加噪,并最终获得结果。正向加噪与反向去噪过程可以构造两个相匹配的轨迹,通过分布推断方式学习去噪模型参数。扩散模型最初应用于图像生成领域,早期研究人员利用底修模型实现高分辨率图像生成。



在本次讨论中,我们重点关注人工智能安全的重要性。人工智能安全问题已成为关注焦点,许多人担忧人工智能的进步可能会带来深远的安全性挑战。早期,Statement of AI Risk号召提升人工智能发展的安全风险至极高的水平,甚至与核武器带来的风险相类比。


国内曾在北京举办人工智能安全共识活动,吸引了包括图灵奖得主Hinton和姚先生等知名专家参与。他们不断呼吁如何有效管控人工智能未来的发展,以避免当其能力超越人类时对整个人类未来生存构成的潜在挑战。



在使用人工智能和大规模模型的过程中,我们已经观察到许多风险和挑战,这些问题影响着我们的日常生活和工作。例如,模型可能存在偏见,这是由于训练数据中的偏见导致的结果。去年或前年发生了一起著名事件:聊天机器人与一位患有抑郁症的男子交流后,该男子选择自杀,这表明模型可能给用户带来了负面反馈或引导,加重了其精神问题。



我们对人工智能的鲁棒性问题尤为关注,即模型是否能够稳定识别用户的意图,尤其是输入变化时。此外,人工智能和大模型滥用行为也引发关注。比如,人工智能大模型能力可能被用于生成虚假图像和文本以实施诈骗,随着人工智能的普及,数据或信息层面的损害或污染可能带来严重的安全风险。



我们对人工智能安全风险进行了大致分类。人工智能安全包含两个相关概念:AI Safety和AI Security,尽管它们通常被译为“人工智能安全”,但其内涵不同。AI Safety关注深度学习中的Safety问题,即模型内生的安全性问题,例如模型可能存在偏见歧视、内在泛化或鲁棒性问题。目前大模型可能产生不合法输出,其原因可能归因于训练数据或算法问题导致的Safety方面不安全现象。从机理层面分析,这个问题是由风险最小化策略造成的。在训练模型的过程中,通常使用风险最小化的微型模型,这可能导致数据特征学习的效果不佳。 


AI Security这个领域,即在攻击者存在的情况下,模型将面临怎样的风险。模型的问题不仅仅是自身缺陷,而是攻击者利用或误导模型造成的,例如我们开展的对抗攻击、数据投毒以及模型窃取等,都是由于额外的干扰因素存在从而导致的风险。我们将问题建模为双层优化问题,这种方法在考虑最极端的情况下,即存在最为强大的攻击者时,如何确保模型的安全性。随着大模型技术的发展,尤其是模型的通用能力不断增强,Safety与Security之间的联系越来越紧密。


因此,大模型安全成为大家关注的重点,即涉及到Safety与Security等交叉领域事件。 在这种情况下,一些攻击者可能会实施对模型的攻击。成功实施攻击后,模型可能会生成许多不安全的输出,例如Safety内容,这样就进一步加剧了模型的安全风险。



我在加入大模型之前一直研究深度学习模型的安全性风险。我们从传统的机器学习转向深度学习,以确保其安全性,到现在关注于大模型安全,那么在此过程中会有怎样的新启示?首先回顾一下,我们在对抗记忆学习领域通常是如何进行操作的。过去学术界在考虑对抗机器学习和深度学习模型的稳健性时,通常会设想一个极端情况,即假设攻击者的能力达到最强时,确保模型的稳健性。


而从工业界的角度来看,由于深度学习模型的方法能力不足,已经在诸如人脸识别和自动驾驶等领域造成许多风险。工业界通常的解决策略并不完全以极端情况为基础,而是可能采用模型风险检测的方法来预防未知攻击。实际上,这种方法也取得了一定的成效。


学术界和工业界之间的研究思路一般会存在偏差,这表明学术界对这一问题的研究非常严谨。深度学习对抗样本的问题自2014年首次发现以来,已经发展了约十年时间,但至今仍未得到彻底解决。ImageNet图像识别数据集上,我们给予图像4/255的扰动,此类扰动极小。 我们评估最优模型的表现,目前最优模型的准确率未超过60%,这与当前使用的大模型相比差距显著。说明对于鲁棒性问题,即使经过长时间的研究,依然未能完全解决。 

 


当前生成式人工智能面临的新挑战之一是大模型安全和通用人工智能安全,但我们缺乏明确的数学定义。由于现有大模型存在众多风险,其输入输出皆为任意图文序列,难以进行有效限制。它并非单纯的分类任务或检测任务,缺乏具体的问题定义。


2、针对文本,我们正在开发多模态大模型,输入包括图像和文本。在文本层面进行攻击或防御,实际上是在离散空间中操作。文本的输出可能表现为离散分布,在这种离散空间上进行高效优化是一个极具挑战的问题。目前已有的方法在离散空间上表现效果与启发式搜索相差无几。


3、在评价大模型的安全性时难度更大。这包括难以界定生成内容是否有害或是否属于正常回复,因为边界模糊不清。




在深入研究之前,我们先介绍深度学习中对抗鲁棒性的问题背景。深度学习模型面临对抗样本欺骗的困扰。这可以通过一个实际例子来说明:左边是真实图片,模型能够正确识别为阿尔维斯山,而中间是通过算法生成的扰动。将扰动添加到左侧原始图片后,生成了右侧的对抗样本。尽管对抗样本肉眼看起来是真实的图片,能够清晰识别所包含的物体,但深度学习模型以极高的概率将其识别为不同类别。对抗样本有一个非常有趣的性质:跨模型的牵引性或泛化性。


即使将某个模型生成的对抗样本输入到未知的黑盒模型中,黑盒模型也可能产生错误的预测。从机理层面来看,这一现象为何具有意义?我们发现模型内存在对抗样本。先前的假设认为对抗样本的存在是因为模型过拟合。高维空间中总存在一些模型无法很好地建模,从而导致对抗样本的出现。


过拟合无法解释为什么模型具有迁移性。我们不能假设两个结构不同的模型在相同的数据下会学习到非常相似的过拟合分界,这在高维空间中是不现实的。在几百万维的空间中,模型在同一区域学习相似的边界是不可能的。


因此,从理论层面看,这个现象非常有趣。从应用层面来看,这一现象有重要的价值。如果我们试图攻击某些系统,例如ChatGPT、没有开源的模型,我们无法获取该模型的参数和结构,因此无法针对性地产生对抗样本。我们只能针对本地模型进行攻击,例如Llama和DeepSeek,之后用样本直接测试目标模型和应用,观察效果。



我们的工作主要提供商用的测试GPT-4o多模态功能。例如在2023年10月发布的多模态功能,我们开始考虑攻击这些功能的可能性,并在攻击过程中实施策略。首先,我们需要明确攻击的目标,因为图像分类只需保证目标分类正确即可。


对于大模型,我们的目标是让它错误识别图像。在此背景下,我们采用两种策略。第一种策略是让编码器的表征与原始图像的表征彻底不同,使后续强大的语言模型无法正确识别。因此,需要增加表征与原始图像表征之间的距离。在这一策略中,我们可以采用替代模型,例如使用开源模型CLIP第二种策略更直接,针对整个多模态模型的攻击,确保输出文本与真实文本不一致,直接优化输出文本的损失函数。这时我们可使用替代模型,如LLaVa, MiniGPT-4等公开的多模态模型。 



面临的第二个问题是目标确定后,如何优化目标以产生对抗样本。相关技术已在ICLM2024的文章中展示,称为共同弱点攻击方法。共同弱点指的是多个替代模型通过多个白盒模型攻克黑盒模型。


定义共同弱点需满足两个条件:其一是不同模型在收敛时的损失函数应较为平滑,即“flight”;其二是不同替代模型之间的局部极值点距离应较接近。通过图示可以理解为什么需满足这两个条件。图中黄色虚线和红色虚线代表两个模型的损失函数,为优化对抗样本只能到达某处,但两个损失平面不平滑且距离较远,因此对黑盒模型的优化效果不佳。如果损失平面变得更平滑,那么对蓝色线模型的优化效果就会变得更佳。


最后一个例子展示了损失函数的平滑性和局部极值点的接近性,两者对于蓝色线模型更加贴近局部极值点。这是我们研究的核心重点,我们力求找到位于替代模型损失函数平滑区域的对抗样本,同时这些样本在局部极值点更加接近,以期实现这样的解决方案。


在分析这问题时,我们重点关注对抗攻击目标函数的形式化求解。我们将目标函数进行二阶分解,其中Pi代表每个模型的局部极值点,我们最关注的是二阶项。在一些假设下,它可以有一个上界,其中第一项反映模型损失函数的平滑性,第二项反映不同局部极值点之间的接近性。我们通过形式化推导可以得知,模型需要同时具备这两项才能具有泛化能力。这是通过图示进行的直观解释,与数学推导结果一致。目前关键问题在于如何优化损失函数的平滑性与局部极值点的接近性。



这是早期展示攻击效果的方法,对于我们的研究较早阶段。我们最早在多模态理解功能上攻击商用模型,这是在2023年10月左右的成果。当时测试了GPT-4v、谷歌的Bard、微软的Bing Chat以及百度的文心一言,当时商用模型可用的只有这四个。攻击成功率分别是GPT-4v45%、谷歌22%、必应26%。 我们还发现Bing Chat具备噪声图片检测功能,它可能会拒绝回复此类图片,有一定的拒绝概率。



这是对GPT-4v的实际效果,上左图把羚羊图片输入到模型中,它可能被描述为一双手呈心形。上右图蜗牛图片被识别为人脸或肖像,这证明图像识别失败。在某些情况下,更新版的GPT仍会进行抽象图像描述,不一定能够很好地解释,从而减轻风险。 



除了图像识别任务可能出错外,我们也对其安全性进行攻击。例如提供图像后进行关闭图像描述,在这种情况下也有风险。我们早考虑能否进行针对性的攻击,这是专门针对谷歌设计的攻击效果。模型表现出两个防御功能:对人脸图像拒绝回答,可能是担心泄露敏感信息。


第二类处理有害图片,尤其是涉及色情、暴力和恐怖内容的图片时,模型会拒绝回答,但从其不同类型回复中可以发现,处理方式有所不同。对于人脸图像,模型通常会直接回复“抱歉”,而对文本相关,模型则可能会产生不同的回应。我们发现,通过对这两种情境加入噪声,模型的防御机制可能被彻底破坏。


例如,对图片的说明可能详细至描述某个明星、拍摄年份及地点,不再屏蔽详细信息。 同样,对文本内容,模型可能会涉及图像中的活动描述,并产出不安全的回复。如果原始图像存在更多不安全因素,描述内容也可能变得更加不安全。 这是我们对其防御机制的攻击。



最近,我们进行了初步探讨,除了高层次攻击大模型外,是否能够对抗性攻击生成风格。在生成对抗样本时,我们选定多个替代模型并观察其对黑盒模型攻击成功率的变化趋势。结论显示此方法对商用模型有显著效果。随着替代模型数量从1个、2个、3个、4个扩展到十几个,攻击成功率明显上升。例如,对GPT进行攻击,成功率显著提高。 




第一个要点在于探讨可信性涵盖的维度以及安全与可信之间的关系。我们认为可信性是一个相对广泛的概念。可信性包括模型的稳定性、真实性、隐私保护、偏见歧视、内容安全以及可解释性等多个方面,因此,它是一个更加全面的概念。在我们的框架中,主要测试了五个维度,包括内容真实性,其中主要检测幻觉类问题,即模型提供的内容是否与客观事实一致或与上下文吻合。


第二个维度是安全性,即输出内容是否有害,如模型在生成可能涉及安全问题的内容时的表现。第三部分涉及鲁棒性,包括在攻击条件下的鲁棒性。第四和第五方面新增了公平性和隐私保护,这是构成可信性的一部分。


第二个问题探讨多模态模型的可行性与大语言模型可行性之间的区别。在开始相关工作之前,我们已进行了大语言模型可行性研究。与多模态可行性相关的维度与上述大致相同。创新点在于了解多模态模型的风险是否与语言模型一致,若完全一致,就无需进一步研究。针对多模态风险,我们引入两部分组成。第一是数据特征性风险,如在对抗攻击中,加噪声于图像并赋予文本任务,因为这本质上是多模态任务,因此归为多模态风险。第二方面则称为跨模态影响。


任务本身为文本任务,如涉及隐私保护等内容。若不提供图像,模型则按问题处理。我们希望在纯文本任务中加入相关或不相关,甚至误导性图片,观察模型的安全性或可靠性是否改变,这即为跨模态的影响。理想状态下,模型在任何用户输入下都能保证安全。

 


这是我们设计的原则,基于五个评测维度,拆分为十个小维度。特别的是我们采用额外的监管策略,涵盖两个主要方面。在这种框架下,制定了约十个小维度,并结合两个评价策略,建立了32个测试任务,涵盖范围广泛。



以下是我们的评测结果,并且榜单将持续更新。测试表明,商用模型如GPT和Claude在安全性上表现最优,而开源模型的安全性相对较低。这一发现显示出开源模型与商用模型之间的差距。



第二点,我们分析了模型的可信性与通用能力之间的联系。相关系数为0.6,表明某种联系,尤其在商业模型上比较明显,比如Cloud同时具备安全性和优异表现。然而,相关性指标并不特别高,表明模型能力的提升并不必然伴随安全性或可信性的增强,两者之间并没有强烈的直接关联。第三点的重要结论是,可信性评价中不同维度之间的相关性较低。即便在确保模型不产生幻觉时,仍无法保证公平性或鲁棒性的提升,同时隐私保护可能也存在漏洞。


因此,在可信性研究或评测中,以及提升安全性和可靠性时,需考虑多维度,而不仅仅限于单一方面。



从具体结论来看,首先在真实性方面,绝大多数基础模型在简单视觉任务如图像识别和检测上表现优异,但在细粒度任务如细粒度识别或特定定制任务上表现较差。第二点,多模态模型在常识任务上表现良好,其优势在于有效利用语言模型内的知识库。然而,对于视觉推理任务,它的表现相对较弱。


尽管今年在多模态推理模型上有所提升,但仍观察到开源模型受到视觉干扰的影响较大。例如询问关于AI中最早使用的编程语言,某模型给出答案。如果在回答此类问题时配以Python图示,容易误导对客观事实的判断。过去的多模态模型可能受到图片的误导。



针对内容的安全性进行了分析,发现商用模型在处理不安全问题时表现较好,对这些问题能够有效地拒绝。而多模态模型在视觉任务训练中,如OCR能力,可能忽视掉一些潜在风险。


第三点涉及多模态训练。我们发现,多模态模型需要进行额外训练以实现对齐,但这一过程可能会破坏原本已对齐的语言模型。

 


关于公平性,我们进行了相关测试,以评估不同人群、国家和信仰间是否存在偏见和歧视。目前,这些模型在识别真实场景中的风格和刻板印象方面有良好的能力。这些问题涉及价值观层面,西方的价值观对于某些话题的稳定性或公平性表现良好,尤其在群体性别方面广受关注。


但对文化、年龄甚至国家的关注可能相对不足,不同地区的需求可能会有所不同。这种差异主要由价值观所致。我们发现,若在公平性问题中引入相关图片进行误导,模型的行为可能发生明显变化。



在隐私方面,我们测试了图像隐私信息的识别,包括个人身份和支付信息等需要保护的内容。模型展现出强大的识别能力,甚至能推理出关于图像的隐私信息,呈现出良好的识别效果。因此,隐私保护成为当前广受关注的重要问题。


 

在我们的平台上,我们构建了一个开源框架,采用模块化设计,能够对不同数据、方法或模型进行封装和实现。如果有人对此领域感兴趣或进行相关研究,欢迎参与贡献,例如测试自己的模型或在我们的平台上添加新的测试数据,我们提供全面的支持。我之前提到的平台将进行扩展,目前支持多模态认证任务,欢迎大家关注我们即将发布的新平台。




最后,我们讨论了安全对齐问题。此前,我们已经涉及攻击及评测,而防御措施也成为大家关注的焦点。最近,我们在大语言模型方面开展了一些工作,虽然尚未扩展到多模态模型,但许多思路可以进行扩展。进行安全对齐时,我们更为关注如何使模型对不安全及恶意问题产生拒绝回答的行为。


目前,主流的大模型普遍遵循这种范式,比如用户提出的恶意问题,如制造炸弹、偷窃、抢劫银行、传播虚假信息等,均被视为非正向问题。我们预计模型会对这些问题做出“抱歉”或类似的回应。过去,安全对齐主要通过收集数据并配以简短回复,对模型进行安全性训练。这是常见的基本范式。


攻击者也可以针对这些问题进行对抗性攻击,如使用对抗后缀或角色扮演等技巧来诱导模型绕过安全对齐机制,从而生成相应的回答。我们发现,大模型的安全防护及对齐机制较为脆弱,很容易受到攻击而失效。


此外,安全性及边界模糊问题亟需关注。例如,关于某些有害行为的问题自然是不安全的,而询问how to kill Python程序则是正常的。但是模型在区分这类问题时,边界相对模糊,需要更好地理解问题的实际用途以正确分辨安全性。有些情况下,当安全措施过于严格,可能会导致过度防范行为,对一些正常但形式与恶意问题相似的情境作出过度反应。


这便产生了trade off的现象。针对这些问题,我们的思路包括引入“理性思维(Reasoning)”到模型的安全对齐中。我们希望能将此概念应用于增强模型的安全对齐能力。


我相信大家已经了解"Reasoning"思维方法,目前它分为system 1system 2的方式。对于一些简单直觉的问题,模型可以立即作出反应并直接回答。对于复杂的推理问题,如数学题和代码题,可能需要经过一个缓慢的思考过程,通过链式推理的过程来生成回复。我们注意到,传统的安全对齐方式倾向于做出过度反应,类似于system 1而非深入分析。


在提出问题时,模型无需深入分析问题的具体内容,便迅速回应称该问题不安全。我们认为,特别是面对那些不明确或隐晦的安全问题,此方法是system 1而无法妥善解决。对于这类问题需要深度理解,以判断其是否真正存在安全风险。因此,这理应通过system 2来处理,这也是我们核心的安全思维。


我们希望将system 2思维引入到安全分析中,以帮助我们对安全相关问题进行更深入的反思和更准确的安全风险检测,从而做出全面的回应,这是我们的核心思路。



实际上,实现这一思路很简单,我们希望语言模型能够直接应用这种思维方式,最直接的方法是COT。过去我们通过简单的COT进行分析而无需训练。在作出最终答案之前,给模型时间进行思考。


我们尝试后发现,如果采用直接Prompt COT,效果并不佳。这在我们的测试指标上有所体现:它在安全相关性方面的表现与基准模型几乎没有任何提升,尽管通用能力略有提升,但在安全性上并无改善。问题核心在于,虽然模型能够 COT,但却缺乏对安全性的反思。我们希望它具备推理能力、全方位扫描以形成安全意识,通过深度思考来判断,确保最安全的回复。

 


因此,我们的核心思路是训练链式推理(Cot),使模型具备推理的能力。 此外,我们可以将许多认证技术应用到安全领域。例如,除了训练之外,我们可以在测试时进行搜索,以获取更安全的回复。



我们提出了名为STAIR的框架,这篇文章是今年在ICML会议上发表的文章,我们将分步进行介绍。其核心思想是为了提供一个基础的大语言模型,首先对其进行调整,使其具备安全性和链式推理(COT)结构化输出的能力。


在此基础上,我们进行蒙特卡罗树搜索(MCTS),以探测安全与不安全路径。基于这些路径,进行模型的DPU训练,这是模型自我提升的过程。第二部分可以多次迭代,迭代完成后确定数据集。在MCTS过程中获得的数据可以用于训练奖励模型,并在推断时进行搜索,这是我们的大致方法。



首先,第一步是较为简单的,需要对现有模型进行链式推理(COT)格式对齐。假设我们刚开始得到的是没有链式推理能力的模型,如LlamaDeepSeekV3这三款主流模型,可能最初并非输出链式推理格式。因此,首先进行格式对齐,包括加入特殊标记,让模型进行深度思考,并给出每一步的流程。最后,在完成思考后给出输出图片和最终结果,这与当前的推理模型结构相似。



第二步是在完成推理格式后,对其采样并给出输入,进而不断进行采样。每个节点代表推理过程中的一个步骤。每条路径在推理结束后会得出最终的结果。对于最终结果,在进行安全对接时需同时评估安全性和可用性。遇到安全相关问题时,我们希望模型具备强安全性,而在常规问题时,其通用能力应保持不变。这涉及两个奖励模式:一个是安全性奖励,另一个是可用性奖励。


基于这两个奖励,我们可以使用蒙特卡罗数进行搜索,将结果回传并对每个节点进行价值估计。通过估计,我们能够判断哪个节点表现优良,哪个节点表现欠佳。使用同一层级的数据,我们可对表现的好坏进行DPU训练,这是广为熟知的训练过程。 

 


一个重要事项是如何对可用性和安全性进行分离评估。如果我们能单独评测这两个属性,那么如何综合确定最终的奖励模型,就成了需要解决的问题。


我们在这方面设计了三个原则。第一原则是安全性优先,即在遇到不安全情况时,无论帮助效果如何,我们都会选择最安全的方案。第二原则是在所有答案安全性一致的情况下,我们选择帮助性更高的回答以减少单调性。


例如,判断问题是安全的,并且所有回复均安全时,我们会选择帮助性较高的回答。第三原则考虑退化问题,即在不考虑安全性的情况下,希望最终的奖励与帮助效果的奖励仅差一个常数。基于这三点要求,我们可以从理论上推导出融合安全性评测和效能评估的方法。



在学习模型和MCTS(蒙特卡罗树搜索)之后,进行搜索是一个常规过程。我们直接从树中提取一些图例,然后通过标准的BT算法训练奖励模型。基于奖励模型,在测试时可以使用如Best-of-N等方式进行搜索



这是我们的实验结果,包括在Llama和其他测试进行实验,并与基准模型进行对比,肯定比基准模型有显著提升。我们发现通过我们的模型,安全性得到了极大提升,而通用能力并未降低,甚至有所提高。这种方式有效缓解了性能和安全性之间的冲突。



测试阶段增加计算量后,我们发现模型的安全性与通用性均得到提升。右侧表格显示了商用模型的对比,当时安全性最佳的是Cloud 3.5模型。我们也与新出现的GPT-4o进行了安全性比较,结果显示我们的方法已能达到与Cloud 3.5模型相似的水平,表明我们可以达到商用级别的安全性。 



这项工作从去年年底至今年年初完成。自今年新出现的DeepSeekR1模型,我们对其进行了评测,发现其安全性相对较弱。我们希望通过安全对齐,基于之前提到的方法,对DeepSeekR1进行了处理,并对MCTS进行了简单处理,发现效果非常好,适用于范围从1.5B到32B的数据。


我们对比了一些真实数据而非推理数据,如MATHAIME等,发现在安全性方面,其表现与DeepSeekR2的通用能力基本持平,甚至有些许提升。 在safety上,这方法表现出显著提升,表明能够在提高安全性的同时,不损害模型效果,实现安全与性能的良好平衡。



最后,我将简要说明为什么我们的方法能够提高安全性。我们认为有三个主要原因:首先,我们收集的数据更为优秀和丰富。其次,我们认为推理对平衡风险非常有帮助。若采用直觉式回答,例如“如何制造炸弹”或“如何建造房屋”等,需要细致理解两者区别,以避免不必要的反应。在这方面,模型需具备相应能力。


若将推理纳入其中,并引入更多计算,模型则能够在安全与不安全之间找到更合适的区分界限,由此增强整体能力。 第三方面是我们设计了一种更好的reward方式。安全问题不仅涉及性能,我们在算法中采取强制拆分,从理论上推导出平衡这两个目标的最优解。通过学习最优解,最终结果也能取得较好的效果。




📺直播预告

《追AI的人》第55期直播:浙江大学软件学院副教授周晟老师分享《用AI让信息“无碍”:面向视力残障人群的信息无障碍研究》👇

📌往期推荐

👇AAIG课代表,获取最新动态就找她
图片

关注公众号发现更多干货❤️

图片

图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除