直播回顾

《追AI的人》系列直播第37期邀请了邀请了阿里巴巴安全部御风大模型算法能力负责人秦鹏达分享《如何用安全大模型锻造企业“盾牌”？浅谈阿里安全大模型的实践应用！》

以下为直播的文字回放，共计15001字。

📺《追AI的人》往期直播视频回放观看👉B站关注：AAIG课代表

直播简介回顾：

如何用安全大模型锻造企业“盾牌”？浅谈阿里安全大模型的实践应用！《追AI的人》第37期来啦！

秦鹏达

高级算法专家，阿里巴巴安全部御风大模型算法能力负责人；北京邮电大学博士毕业，并以访问学者身份在加州大学圣芭芭拉进行为期2年的学术交流；在国际顶会ACL、CVPR、EMNLP、ICCV、AAAI发表多篇学术论文；2021年入选百度发布的全球AI华人新星百强榜单。

分享大纲

🎈以直播风控为例，解读内容安全的本质以及背后暗藏的风险

🎈安全领域的大模型技术揭秘，从直播内容安全防控架构的多模态联合识别推理讲起

🎈集内容安全/舆情分析/代码漏洞修复为一身的AI安全大模型长什么样子？

🎈大模型技术将如何重塑安全行业的未来？它们会带来什么样的变革？

首先，让我从宏观的角度回顾一下阿里安全所负责的各个安全领域。在内容安全方面，这应该是大家较为容易理解的部分，主要涉及到图文黄恐暴政违识别以及不良信息检测。

第二个重点是平台治理。这包括了商品的合规性和账号安全等方面。例如，销售于阿里平台上的商品是否符合平台规定的各项准则。

第三个领域是基础安全。关于网络安全、病毒木马的防护，以及数据安全等问题，也属于我们技术安全领域的范畴。

第四个行业安全，我们也设立了特定措施来确保包括文娱安全、医药安全等行业的安全。

最后一个关键领域是国际风控。随着全球业务扩展成为一条热门的发展路径，对于国际市场的风险控制则变得日益重要。因为不同国家对于安全性的要求和监管标准各不相同，这就意味着必须对于每个国家的情况进行定制化的风险控制方案。因此，我们也投入了相当多的精力去应对国际风控的挑战。

挑战1：内容多样性

在内容安全领域，我们首先遇到的是四个主要的挑战。第一个挑战与内容的多样性有关。如今，随着直播、短视频和各类信息获取平台APP的普及，内容呈现形式越来越多样化，这给我们在安全风控方面带来了巨大挑战。以直播场景为例，其实时性的特点要求我们的风控模型必须做到足够快速，以免影响用户体验。

另一方面，比如说电商直播场景，为了满足功能需求，我们不仅要处理直播画面，还需要处理直播主播相关的商品库，以及直播中观众的评论互动。要想准确地识别出当下时刻的风险，就需要综合关联多维度的信息进行判断。

挑战2：语义复杂性

第二个挑战源于风控领域本身的强对抗性质。随着我们识别能力的提升，一些黑灰产的风险展现形式也在不断更新和迭代。同样，与风险相关的信息也会随着诸如正式事件的发生或者新闻时事的变化而定义上发生变化。因此，我们的防控系统不仅要能够预防过去已知的有风险的内容，同时还要有能力预防因新发生的事件而产生的风险内容。

举一个假货场景作为例子。假货问题是我们在进行安全防控时面临的一大难题。在当前的环境下，仅从表面上发现假货变得更加困难。当这样的场景出现在直播画面中时，我们很难仅通过商品的外观来判断其是否为假货。比如，我们需要结合主播的描述以及消费者与商家之间的互动来综合判断，是否真的在售卖假货。

挑战3:风险对抗变异性

第三个挑战来自于风险对抗行为的变异性。正如刚刚提到的，如今黑产手法日新月异，在视频造假技术飞速发展的今天，AIGC技术滥用给我们的防控工作带来了极大的困难。

如上右突展示了违规商家和平台对抗，当商家在直播间销售违禁乌龟时，他们会采取一些巧妙的手法，例如通过手写文字来展示信息，使得其信息非常隐晦。对于那些有意购买的人来说，他们可以轻易地识别出商家所售卖的特定品种的乌龟。商家充分了解算法的逻辑，知道手写体和非标准布局的文本在识别上较难，正是这些方法使得内容安全领域的对抗性变得非常强。

挑战4:内容安全对审核人员会带来负面影响

最后，还有一个挑战，我认为这也是大模型在安全领域应用的一个重要理由。安全审核任务每天需要大量的审核人员参与，这不仅对他们的身心健康造成了巨大影响，也是一个耗费人力资源的工作。如果大模型的能力足够强大，那么它可以在最后的环节中尽可能地减少人工审核量。在这一方面，我相信大模型的价值是巨大的。

接下来，我会结合我之前实际参与的业务——直播电商风控，来介绍在特定业务中，我们应当从哪些维度去进行防控以及其中的困难所在。

电商直播平台作为新媒体的代表形式，其独特的场景构成了安全防控的复杂背景。简要地将直播场景分解，我们可以将其归纳为五大要素：人（商家）、货（所售商品）、场（直播场景即实时视频流）、互动（消费者及粉丝的评论、红包、交易和点赞）和营销（主播推销商品时的宣传方式）。

这五种主要元素又衍生出五种不同的风险类型。首先是内容安全风险，涉及非法信息或不当内容的传播。其次是营销风险，例如对商品的虚假宣传，夸大其功效等。接着是商品风险，包括违禁商品的识别与禁售。还有商业秩序风险，指的是同行之间可能出现的恶意竞争，我们需要确保商家能够在公平的环境中开展业务。最后是舆情风险，例如直播间触及敏感话题时的防控措施。

不仅风险类型多样且不断更新，同时所面临的风险也经常是实时显现的。因此，直播防控所需的能力和所需成本极高。在直播风控场景中，我们总结的难点包括：

1、风险种类的多样性与新颖性；

2、多模态的直播信息处理；

3、风险响应速度的高要求，监管部门通常要求我们至少要能在秒级内对某些风险做出响应。

4、全量布控的高成本。每天有大量直播同时进行，防控成本会相当巨大。因此，这要求我们在策略层面上能够既保证防控效果，同时又尽可能地降低成本。

5、新风险快速防控。当商家尝试与我们的平台进行对抗，并试图摸清平台的防控标准，他们往往会迅速变更其策略。一旦商家发现了可利用的空隙，他们会迅速做出调整，以逃避平台的监管。

因此，这就要求我们能够高效迅速地感知到消费者或商家的异常行为，进而进行风险策略的快速迭代和更新。

在第二章中，重点是介绍自2018年以来，我们开始投入研究自监督的大模型技术，在安全场景中的应用价值。接下来，我将分享我们在这一过程中的深入思考，即如何将多模态大模型的能力引入到内容安全的场景中，并且我还会结合直播风控的场景，来具体阐述多模态大模型是如何真正落地的。

举例来看右侧的案例，当向不同的人展示同样的三张图片时，不同的人可能会给出不同的标签。这三张图可能被某些人标注为“马”，有些人则可能会标注为“草原”、“天空”或者“奔跑”。

因此，当让人类标注数据时，人们天生的主观性可能会引入一些在过程中不可避免的偏差。如右下图，人在挑选与T恤相关的图片时，倾向于挑选那些图案简洁明了的图片。这导致构造训练数据时会天然带入人的主观偏见，影响了数据选择的丰富性和多样性，并可能导致模型在实际应用时无法完全贴近现实场景。

对于这种情况，我们认为直接从数据中学习是一种更为高效有效的途径。首先，数据容易获取，互联网上拥有大量不断更新的数据资源可供使用。我们生活中也有很多情境可以转化成数据供模型学习。其次，这些数据代表了客观的事实，蕴含了大量的信息。例如，一张图片背后可能的多重意义很难仅以一个标签来全面概括。

因此，在2019年左右，我们开始探索从大量数据中学习的自监督技术。自监督学习的本质是使用数据来预测数据，即通过数据内在的模式和结构去学习模型，而不仅仅是预测标签。

这也引出了为何我们要研究多模态技术的原因。现实生活中，绝大部分信息的呈现都是以多模态的形式出现的。

多模态的本质在于单模态信息的融合或综合决策。多模态算法的工作方式有以下三种方法：早期融合方法、晚期融合方法和混合融合方法。

这一概念本身是容易被理解的，尽管它属于较为早先的理论，但我认为不论是运用大模型还是曾经的小模型技术来解决多模态问题，本质上我们仍然在执行这三种融合方法。

有时，我们可能仅需将不同模态独立进行判断，再综合起来得出最终的决策。而有些情况，必须将两种模态的信息从初始阶段就结合起来，才能获得正确的结论。无论如何，现在的多模态大模型也在尝试将这三种方法隐式编码在大量参数前向推理中。

在进一步深入讨论多模态大模型之前，让我们先简单回顾下自然语言处理（NLP）领域以及计算机视觉（CV）领域的一些发展历程。

从2013年、2014年，NLP领域开始兴起，直至现在，NLP的发展非常迅速。如上图，是NLP发展几个关键的节点。标志性的进展包括引入Word Embedding技术做文本的稠密编码，到2014、2015年，Attention和sequence-to-sequence model与现在Transformer网络已有了很强的对应。

再谈到2015年，基于memory-based网络开始兴起，这种兴起的趋势部分原因是当时的网络并不够大，研究人员开始探索，如果网络构建不够大，是否可以借助外部记忆机制来存储之前的信息，并在执行实际任务推理时从记忆中提取信息进行推理。

回溯2013年至2015年期间的技术发展，我们可以明显看到当时的技术萌芽已经与现代流行的神经网络模型形成对应关系。随着GPU推广和计算效率的提升，尤其自2018年以来，大家逐渐开始投入于大规模预训练模型的研究，并一直持续到现在。在整个NLP领域中，虽然网络的规模并没有巨变，但是其效果却发生了翻天覆地的改变。

论及自然语言处理的历史，最初的方法大概可由unigram或者bigram的概念解释。在语言学早期，人们相信通过前一个词或字来预测下一个词是可行的。这被表述为概率问题：可以基于前面的词来预测下一个词。将这些映射到概率分布中，意味着通过大量的语料库来统计频数。在右下表中，当第一个字是"I"时，下一个字出现"want"的频数是827次。

这表示，在整个语料库中，下一个字是“want”的概率大约是0.33。这种统计方法与现代的Transformer网络理论是相对应的。但由于过去计算力的限制，我们难以通过许多先导字去准确预测后续字词。

现如今，我们可以利用算力将这个理论广泛推广：可以通过数十甚至数百个前置词来进行预测，甚至能够处理长达20万甚至200万个字符序列。

大语言模型的训练原理：我们可以通过前面的上下文预测下一个词的概率来训练模型。实际上，训练过程就是在处理这样一个简单的条件概率问题。

当给定一段文字，比如“学生们打开了他们的_____”，我们可以预测出“书本”、“电脑”、“试卷”都是合理的后续词汇。但如果将上下文扩展到“在考场上学生们打开了他们的_____”，则“试卷”的概率应该会进一步提高。大模型正是在学习这一过程：当你提供了一些先决条件时，预测哪一个词是最合适的。当有更精确的前置条件时，特定词汇出现的概率自然会增加。

先前我们探讨了NLP网络架构，现在我们转向图像感知网络架构的讨论。ResNet架构在CV领域是一个经典的网络设计。在我进行实习和入职的初期，图像编码通常采用ResNet网络架构，而随着VIT网络的发明，现在业界更倾向于使用VIT网络进行视觉信息的编码。

回想2022年时，VIT刚被提出，并没有广泛的共识认为它可以有效处理图像视觉信息。然而，随着时间的推移至2023年和2024年，这种看法已经彻底改变。现在普遍认为，VIT网络处理视觉信息是一个非常优秀的选择。

在讨论了语言和视觉网络架构后，我们可以发现所有网络架构趋于统一。当前趋势是，各类信息如图像和文本，乃至音频和行为数据，都在尝试通过Transformer网络架构进行编码。这为后续的多模态融合提供了先天优势，因为所有信息都可以以相同的形式被处理，通过同一网络进行内部的模态性融合，并执行下游推理任务。

接下来解释为何进行多模态研究是必要的。在现实生活中，大多数场景都包含多模态的元素，这推动了我们对多模态研究的需求。同时，多模态自监督的必要性源于标注多模态数据比单一文本或图片数据的标注成本要高得多。

下面我们进入内容安全领域，我们探索如何有效使用多模态大模型。上图叙述了在自监督学习和大模型方向逐渐受到关注后，我们针对直播模型中的应用所梳理的一套整体架构。这一架构希望建立在先前技术的基础上，面向直播场景中的多模态数据进行有效处理和应用。在重新构思我们的风险防控架构时，我们思考如何利用多模态、自监督、大模型这三个关键概念来整合我们的防控体系。

首先，输入层需要处理的信息类型多种多样，包括图像信息、图像中的文本、主播口播中的文本、商品描述文本，以及主播与消费者之间的行为互动等等。在处理这些信息的同时，我们也会使用传统的公共信息提取方法进行基础信息的提取，如OCR、ASR等能力。然而，在此基础上，我们会将这些信息同时交给不同模态的自监督网络来编码。

我们还会训练一个多模态网络，专门处理多模态信息。在某些场景中，需要在输入层将多模态信息结合起来，并进行决策。在中间的表征学习层，我们致力于单模态信息的编码，同时处理早期融合的多模态编码。基于这些表征学习层，我们会根据不同的业务需求整合不同模态的信息，并对整合后的信息进行风险判断。

如此一来，整个风险防控架构将变得更为清晰与有序。所有信息都通过自监督网络进行编码，我们认为这比传统的逐任务小网络更能有效地编码信息。这种编码后的信息也为后续处理提供了更高的灵活性。

现在的整体架构将输入层、表征学习层和推理层进行了清晰的分解，同时为了让网络适应新型风险，我们会在旁路进行一些数据发现工作。特别在标注信息较少的场景，我们将辅以项目确定性的伪标签标注和人工标注以辅助数据处理过程。这是对直播内容安全防控架构设计初衷的思考。

围绕这套框架，我们进行了非常深入的调研。此处提到的是上一代多模态监督大模型的网络选型，这个阶段呈现百花齐放的状态。

这里我们整理了三种经典框架：Dual Encoder架构的经典代表是CLIP模型，对不同模态信息分别使用单独的编码网络；Single Stream架构仅使用一个多模态编码器编码图文信息；Hybrid Encoder混合了前面两种架构，先用单模态Encoder编码分别编码不同模态信息，再使用一个Fusion Encoder做不同模态信息的深度融合。

关于最经典的CLIP网络，即视觉信息和文本信息进行对比学习训练。

而另一种使用单一网络进行多模态信息融合的方式，比如ViLT网络，它在输入层将图像与文本信息的数据进行token映射，然后输入给一个统一的网络进行处理。

上图提到的ALBEF、CoCa网络架构，被我们认为是当时非常有价值的网络架构。我们线上网络框架也是主要参考了这种架构。当时的多模态学习主要分为两大方面的Loss：一种是图文对比学习Loss，另一种图文融合的ITM或MLM Loss。这两种方式在该网络架构中被良好结合，它在不同层次对视觉信息和文本信息进行编码，浅层进行多模态对比学习，然后进行信息融合后以多模态的方式执行ITM和MLM。

Google的Coca在这个基础上进行了延伸，他们的延伸工作考虑了保留多模态融合信息，然后使用类似当前大语言模型的生成式Loss进行处理，如使用定义的Captioning loss来预测下一个词，这样将原工作进行了进一步延伸。

我们在这些多模态大模型的网络架构上做了选择，选出更适合我们场景的Hyper-Encoder网络架构，并用我们内部积累的大量数据来进行多模态的训练。

在这个网络基础上，我们思考如何让网络适配不同的业务。与传统方法不同的是，现在不是针对每个风险点训练单独的模型，而是通过大模型的输入端将所有数据进行输入。对于风险判断，正如前文架构图所示，我们在大模型的输出中间层进行。例如，对于容易分类的风险，可能仅需添加一个MLP层在大模型输出的特性表征之上，就可以进行风险分类，这种模型可以直接上线使用。

如果这种方法无法满足效果需求，我们可以加入一个Adaptor。Adaptor的意思是在网络的某一层进行特定的调整——例如在一个12层Transformer网络中，将前11层冻结参数，只对第12层参数进行训练以适配特定的风险点。通过增加可训练的参数量，提升模型的性能。这样针对特定风险点的定制化训练便能够显著提高模型表现。相对于传统的单一小模型随着风险防控类型的不断增加，采用大模型进行风险防控的成本更低，效果却更好。

如果这个策略仍无法满足需求，我们则可能要采用单独的模型来识别特定的风险点。同时，也可以考虑对大模型本身进行微调，如果大模型的效果已经足够好的话。在大模型的基础上，我们还可以进一步蒸馏出针对单独风险点的小模型，以适应具体风险。这与当前大模型指导小模型的策略是一致的。大模型由于学习得到的知识更为丰富，它对任务的抽象信息也更好，蒸馏出来的小模型在识别某个特定风险点上的能力，肯定比小模型从头学习要好。

所以，我们总结了三种不同的大模型适配风险的方法，并将它们按照效果从低到高、成本从低到高进行排序，以供业务选择。

这里要提到的是我们在ICCV2023年的会议上发布的一项工作，其中我们实验了两种模型：ALBEF和FLAVA。因为一旦大模型适配好业务后，再去调整其网络参数，对下游的所有层无论是MLP层还是adaptor层都可能产生深远影响。

我们需要研究如何让大模型在保持原有任务效果的同时，更好地适应新的任务。这在学术上对应的就是模型的持续学习的任务设定。我们提出了三种不同的策略：

1、Modality-Interaction: 我们首先关注不同模态之间的交互方式。在此策略中，各个模态的表征向量不是独立学习而是通过交互来彼此影响，从而共同优化整个架构的学习过程。

2、Task-Interaction: 此方法允许不同任务中针对各自方法的向量互相影响并进行记忆。这有助于网络在处理多任务时实现信息的共享和保留。

3、Query-and-Match: 在识别不同任务时，在输入端进行携带匹配。这意味着模型会预测输入数据与相应任务提示是否匹配，进而在执行任务时优化选择机制。

接下来讨论如何将多模态生成式大模型应用于安全防护业务之中。当前，随着信息时代的进入和AI2.0时代的到来，生成式学习成为了当前科技发展的一个核心主题。我们观察到，从2020年至今，整个模型网络参数量呈现显著激增的趋势。为什么业界如此热衷于增加网络参数呢？因为这与人类自身的发展趋势类似：人类脑容量的发展与智力的提升之间也存在相似的关系。

在一定的时间节点之后，人的脑容量经历了递增的阶段，随之而来的是智力的突飞猛进发展。类比到学术领域，这被理解为模型的“涌现能力”。我们会围绕人的智力现象出发来探讨大模型是否也能显现出类似的涌现能力。

通过趋势表现的实验发现，确实当模型的网络参数累积到一定程度之后，模型展示了这种涌现能力，如我们现在见到的ChatGPT或GPT4.0。

大模型为何被视为开启了一个新的AI2.0时代？我认为有几个核心的理由：

1、知识表示与调用的新方式：大模型可能正在替代我们原本的关系型数据库和互联网交互方式。其交互相当于一个集合信息的数据库，不仅能存储信息，还能通过自然语言与用户进行交互，这被认为是接近于AGI的状态。

2、交互方式：大模型可以通过自然语言进行交互，运用提示词来调取特定的能力，模糊了算法和运营岗位之间的界限。如果大模型能力足够强，运营人员也能通过对任务的理解来优化模型。

3、长上下文的建模能力：目前很受关注的是模型如何处理长序列的上下文。这个方向我认为非常有意义。如果一个大模型能够编码个人一生的信息，在输出时可能就能反映出该个体的价值观和生命状态。

在近期的英伟达GTC大会上，也有提到，我们应该更多地把精力投入在模型的推理能力。模型通过数十亿的数据训练后已具有一定的能力，就像人一样，可以通过接受周边的信息作为输入，然后进行推理与学习，不断地进化。这是一个非常有趣的概念，也许是未来研究模型优化时考虑的方向。

围绕大模型开展的研究后，出现了几项典型的工作，其中包括综合视觉、听觉、语言三个维度的具体思维多模态模型。这些模型的性能展示了令人惊叹的能力，例如OpenAI的GPT-4V和Google的Gemini。

多模型检索式增强是大模型技术广泛应用后被频繁讨论的另一个点。这一点实际上是关于如何让模型能在其本身知识欠缺的内容领域内实现更优的理解和应用。至少对我们的应用安全领域来说，这是一个极有价值的探索点。因此，我们也深入研究了这一方向。

在对大模型的这些基本理解和认知基础上，我们开始反思在应用安全场景中，大模型应该采取什么样的形态。因此，模型生成的内容需要具备以下几个维度的输出能力：

1、风险判断：首先，模型需要能够判断输入内容是否有风险，并输出该判断。

2、判断理由：模型应该能给出其风险判断背后的理由。这不仅使模型的判决过程具有可解释性，而且当判断出现错误时，可以通过理由来定位模型能力的不足之处。

3、内容修改建议：从业务角度出发，平台不仅要指出问题，还要给予商家正确的指导和修改意见。违规行为分为无意和主观故意两大类。对于无意违规的商家需要给予提醒和教育，确保他们理解规则并避免将来的误操作，而主观故意违规行为就不在此修改建议的适用范围内。

与此同时，我们也考虑了模型在输入层的应用能力，主要包括：

1、提示学习能力：模型的内容安全识别能力，确保识别出潜在的风险点。

2、信息检索增强能力：模型的信息检索能力，即如何利用检索到的信息增强模型的表现。

3、上下文语意学习：模型应能通过prompt来学习我们希望传达的标准和规则。例如，平台的规则是否能通过prompt方式注入，使得固定的模型能够通过修改prompt配置来识别不同的业务需求。这种定制化学习的方法为模型在识别多变的业务场景中提供了巨大的灵活性和实用性。

在监管环境的变化下，如“315”消费者权益日之后，出现新的监管指令要求平台关注特定问题。生成式大模型可通过编码这类新的监管指令，快速调整并意识到某些内容的风险性。

关于内容安全防护的价值，我们关注以下几个方面：

1、跨职能的应用能力：正如之前提及的，我们期待这种模型不仅能被算法专家使用，也能与产品和运营团队交互，令他们也能贡献于模型的优化工作。

2、模型的鲁棒性：大模型证明自身具备足够的鲁棒性，许多之前需要小模型来解决的问题如预处理，可能直接被大模型内化并解决，从而减少了对额外处理步骤的需求。

3、成本效益：对于业务而言，大模型的实施可以从成本角度出发进行考虑。其目标是尽可能降低人工审核成本，这对于业务流程的高效性和成本效益具有显著的价值。

去年三月份，我们特别关注了一项苏黎世大学的研究团队工作：ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks，该工作证明了大模型在标注任务上的有效性，并且在某些场景下，其综合效果甚至优于人工标注。

针对我们内部的一些案例，我们上传了评测集以进行测试，并发现如果我们能够足够准确地定义风险，模型确实能够实现很高的审核准确率。至于为何选择英文进行测试，由于我们发现ChatGPT对英文的理解更加精准，因此当时便采用了纯英文测试。而GPT-4V模型发布之后，我们同样对其进行了测试，以评估该模型在处理一些小模型认为复杂的案例方面的表现。

既然决定采用大模型来执行内容安全审核工作，我们的首要任务便是收集数据。在数据采集方面，我们投入了巨大的精力。这里提供了一个总览：列明了我们收集了多少数据，包括多种维度。针对通用领域以及专门针对内容安全、研发安全等安全领域，我们也收集了大规模数据。

在进行指导性的微调过程中，我们同样收集了大量数据，其中包括1000万条通用领域的纯文本和多模态数据。为内容安全业务安全标注高质量的大模型数据，我们内部也投入了大量的人力，并已完成大量的数据标注工作。对于数据维度，我们的工作进展良好。

在乌镇世界互联网大会期间，我们对内部的大模型进行了宣传，并将其定义为内容安全审核领域的“专家”。我们总结了在内容安全场景中使用大模型的一些有价值点，特别要强调两个主要的方面：

1、审核稳定性：在人工审核过程的对比中，我们发现了一个关键问题。人工审核时，审核标准的传递过程中通常是由经验丰富的审核教师传授给审核人员，而后者再根据这些标准来进行审核。

在这个链路中，不可避免地会存在一些信息的损失。针对大模型在内容审核场景的应用而言，如果我们在训练大模型时已经通过了大规模的测试，那么此后模型在实际应用中的表现应当是稳定的。这是因为模型并且不会因为类似于人的疲劳而导致审核结果的波动。人在长时间工作后往往会感到疲劳，这会影响其审核的效果；而模型不会受到类似的生理限制，能保持一贯的审核效果。

2、审核效率：我们注意到线上流量往往存在波峰和波谷，尤其是在大型促销活动期间，流量往往会剧增。对于传统的人工审核来说，为了应对这种波峰时期的流量激增，需要后备一批审核人员来应对增长的审核需求。然而，此种应对模式不可避免地引入了人力资源的管理复杂性，以及在非高峰期间资源的低效利用问题。

相比之下，对于大模型来说，它需要进行的是精细化的扩容和缩容操作。在必要时迅速扩展其处理能力，而在闲时则可以相应减少资源占用。这种动态的资源管理优化了算法审核的成本效益，同时保持了响应速度和高可用性，因此在应对各种规模的流量挑战时，大模型表现出高效和适应性强的特点。

接下来谈到的是我们如何将传统工作与大模型结合。首先是利用检索增强知识库。这些知识库是我们在上一代架构中沉淀下来的宝贵信息，它们包含了丰富的知识和数据。在大模型的应用中，这些知识库可以得到充分的运用，并通过检索式增强的方式整合进模型中。

同时，原子能力模型产出的结果可以作为关键信息，被输入到大模型中，作为其决策和分析的依据。这样的做法充分利用了我们既有的资源，同时借助大模型的强大能力，提高了整个系统的智能化程度和防控效率。

关于大模型在内容安全领域的输出，我们的内容安全大模型首先会输出关于多模态信息的综合分析。以上图具体为例，模型会对每一张图进行总结，如第一张图显示了什么内容，第二张图揭示了什么信息，并结合文本内容来呈现某种信息。接着，模型会进行风险归因分析。

模型会综合考虑图像和相关文本内容，分析其中存在的潜在内容安全风险。此外，我们的模型在训练过程中还会得到一些操作指引，因此它也会建议执行一些具体的行动，如提出需要及时地删除和停止相关内容的发布。同时，模型还会提示注意到与该内容相关联的账号也可能存在风险，因此也需要给予关注。

现在，我们来探讨这个模型的训练过程。首先，对于文本处理，我们会基于通用模型的基础上进行安全领域的适配。这里提到的关键技术实质上是领域增量训练。我们进行增量预训练的目的是为了将安全领域的知识注入模型。

具体而言，我们会取出我们平台或数据库中沉淀的安全领域相关知识，将它们转换成自然语言形式，并通过增量预训练的方式注入到文本基座中。注入之后，我们需要进行评估，主要包括两个维度：

一个维度是通用能力的评估。例如，我们会查看模型在接受领域增量预训练后，在通用能力上是否有所下降，因为如果通用能力因知识注入而损失，那就得不偿失。因此，我们必须进行这一维度的评估。

接下来，对于安全领域，我们内部构建了一个Audit-Eval评测集来评估模型在接受领域训练后的效果。通过这两种维度的评估，我们可以证明增量预训练实际上达到了什么样的效果。当模型在增量预训练后表现良好时，我们认为模型已经拥有了对领域适配的知识。

适配相关领域知识之后，我们会使用高质量的SFT数据，使模型能够理解指令，并准确地输出其所蕴含的知识。在进行了SFT之后，如果你的任务是针对纯文本领域，你可以使用诸如SFT方法来加强和运用在实际场景。然而，如果你处于一个多模态场景，就需要继续进行多模态的训练。

左下展示在图中的是多模态大模型的简化网络架构，这一网络架构涵盖了文本基座和视觉基座两个方面。我们会直接应用之前完成增量预训练的文本基座到多模态大模型的训练中。

我们认为，许多知识的输入应当在文本维度上输入。因此，多模态网络结构无需从头积累相关的知识结构。在原有的文本模态安全领域知识的基础上，我们进一步对模型进行多模态安全领域的训练。此阶段，我们会注入一些以多模态形式呈现的知识，并采取当前主流的注入范式。

注入这些知识之后，我们将进行与前文提到的类似的评估工作。评估包括多模态通用领域的能力及多模态风险审核的表现。我们还会构建专门MM-Audit-Eval评估集来完成这些工作。同时，我们也会测试模型是否在之前的文本领域任务中出现了性能衰退。

多模态大模型训练完成后，我们将根据不同的下游应用场景进行针对性的SFT训练，或进行直接Prompt适配工作。

刚提到我们讨论了大模型在整个安全领域是如何进行训练的。那么，在高质量的SFT数据方面，我们投入了极大的努力。这一部分的前提是，我们需要明确高质量的SFT数据应当是何种样貌。对这一问题的回答，实际上我们在开始这个工作时也是经过了深思熟虑，并与审核领域的专家进行了广泛的交流来共同探讨。

审核人员入职的学习过程：首先，审核人员的学习流程开始于基础知识的学习，他们通常需要阅读书籍或者文档来掌握一些审核标准。当基础知识被消化吸收后，审核人员进入实际操作阶段，他们会通过解答相关的案例题目来实践所学知识。对于回答正确的问题，便是可以的状态；而对于错误的回答，则需要他们去认真分析题目为何做错，并通过与知识的对比和回顾，将正确的知识与这些错误的案例结合起来，以此加强对类似风险的判断能力。

将上述过程总结应用到大模型的SFT数据准备中，其核心在于风险归因数据的整理。具体而言，就是将多模态输入、输入信息的潜在风险内容以及风险归因的解释这三种信息结合起来。这样，模型既可以通过案例学习来辨识哪些内容是有风险的，哪些是无风险的，同时也可以根据归因信息来学习审核标准。

因此，在安全领域中，我们投入了大量人力去标注，这些数据就是基于此类信息结构的。在这里，我们展示的都是单图案例，需要强调的是，在归因标注阶段，我们不会做直接的风险判定，因为不同的场景对于风险的定义存在差异。我们更看重的是专业人员从专业角度识别和描述内容中的潜在风险信息。而最后的风险判断步骤，则可以交给适配阶段的SFT处理。

在拥有了上述数据和训练方法之后，我们的模型表现出了显著的效果，首先在通用性评估中超过了一些经典通用多模态大模型。这也是一些案例，显示了我们的模型在通用理解方面表现优秀。

第二点，关于归因解释能力。举例来说，有一个案例涉及乐高玩具穿戴纳粹服饰，这便归属于风险相关内容。经过训练的模型会着重关注它们在内容安全性审查中所携带的这些风险信息。

同时，我们也对内部的其他安全场景进行了一些应用和尝试，例如在舆论分析场景中的大模型应用。

通过上面这个案例，我们可以展示出我们希望大模型在舆情分析中能够实现的目标。例如，对于淘宝平台来说，大模型的任务是识别哪些信息是值得平台关注的。例如，在微博上出现了一条信息，内容涉及官方媒体报道某些纹身贴可能含有致癌物质的警告。对于这类信息，需要通过模型捕捉并评估，确认平台是否有商家在售卖相关的纹身贴产品，并据此采取相应的措施。模型在这个过程中起到关键的作用，帮助平台快速响应可能存在的舆情风险，确保用户保护和品牌声誉的维护。

在设计我们的模型时，我们设定了模型输出的内容结构，在这个结构设计中，我们希望模型首先能够总结出信息的标题，然后摘要概括出内容的要点，并给出判别理由。在这个特定案例中，输出的重点是因为这是官方媒体所发布的消息，并且涉及到商品品质风险，因此非常有必要引起我们平台的重视。同时，模型还需要提供指令，指导商品评估部门密切关注此信息，并实时与相关商户沟通。

在阿里巴巴安全团队中，我们对内部集团的代码进行安全评估。不同部门提交的代码需要在我们这里经过安全审查，只有在评估认为没有潜在风险之后，这些代码才被允许发布。

在这一套流程中，我们希望能让大模型参与进来，负责识别风险和漏洞。此外，利用大模型的生成能力，在决定存在漏洞且具有风险时，模型能够生成推荐代码，辅助研发人员进行代码修复。

在漏洞检测和修复流程中，我们会结合一些既有的小模型的信息和专家的意见，以及构建修复指令、参考写法、修复配件和候选插入位置的各种数据，制定出一套比较细致的prompt。然后，这些信息会被提供给模型，以便模型能够给出具体的修复位置和修复代码，这形成了我们的代码修复的整个生产流程。

我们在构建通用知识问答场景的模型时，我们内部在网络安全领域实际落地的一个知识问答案例，这个流程可以应用在在不同研发团队向我们提交安全评审请求时，我们可以在代码修复的步骤中，通过大模型知识问答的形式，向需要修复代码的研发同学传递安全领域相关的知识。因为对于不同业务领域的研发人员来说，他们可能对安全修复相关的技术或信息并不是那么熟悉。

如果所有问题都需要向安全领域的专家求助，实际的工作量是相当巨大的。我们希望通过知识问答大模型来尽可能地降低这类工作量，并能更快速回复研发人员的问题。

在这部分中，首先想展示的内容是，如之前所提，大模型在执行安全领域任务时，特别是安全领域由于风险点众多，如果可以用一个模型处理多种任务，这将是大模型的一个天然优势，也是我们所期望的一种模式。实际上，相应的一些范式在先前的讨论中已经提到，但我们在后续工作中需要对这些范式进行更好的优化。

一个关键点是感知能力的提升，即模型对于风险的感知能力需要持续增强。我们无法声称我们现有的模型已经达到完美状态，所以我们必须不断地迭代和完善我们的模型。在我们的大模型迭代过程中，有必要不断吸收外界的先进技术，特别是鉴于大模型技术领域发展迅猛，短时间内可能会出现新的技术迭代方案。

我们需保持对行业动态的关注，以便将这些先进技术应用于提升自身大模型的感知能力。在提升模型感知能力的同时，也需考虑到关键应用场景对成本的敏感度。我们探索如何使用规模更小的模型，这是我们特别关注的问题方向之一。

接下来是模型的泛化能力。我们不希望安全领域的大模型仅限于专门适配于某些特定的子领域，我们的终极目标是这样的模型能处理并解决整个安全领域的问题。因此，提升大模型的泛化能力是我们不断追求和努力的目标，这与前述的感知能力提升是相辅相成的。

此外，解释性也是一个核心议题。我们希望大模型生成的内容具有较高的解释性，这涉及到能否满足生成具有可理解范式的内容。同时，我们确实观察到大模型在生成归因时，有时会出现幻想或不可靠的解释。确保生成内容的可靠性和解释性，是我们未来在安全大模型领域的关键技术研究方向之一。

最后，总结了安全领域大模型的机遇和挑战，而且提及了整个大模型领域所面临的机遇与挑战。下面我将重点讨论面临的挑战：

首先要强调的是数据维度的问题。尽管我们在过去一年里已经投入了巨大的精力，到目前为止，我们发现不光是在安全领域，几乎在所有的业务领域中都存在某些数据相关的问题。通常情况下，业务层的数据以数据库结构化数据的形式存在。如何更好地将这类数据组织成自然语言表达形式，并有效地将其注入模型，是一个非常关键的问题。简单而统一的模板拼接方式在实验中表现不佳，这就凸显出寻找一种更好的方式，以将积累的知识注入模型的必要性。

其次，我们面临的挑战还包括，如果某些知识不适宜被抽象为语言并直接注入给模型，我们应该如何以有效的形式调整，让模型能够有效利用这些数据。

再接下来一个重要方向是大模型的安全性和可靠性。如何确保模型足够安全是我们要面临的问题。由于安全识别场景的容错率极低，只有确保了足够的安全性和可靠性之后，模型才能被部署上线。因此，安全性和可靠性将是未来面临的重大挑战，也是安全领域的永恒课题。最后要考虑的是成本优化问题。在保证效果提升的同时，如何实现成本上的优化，也是我们面临的主要挑战之一。

📌往期推荐

👇AAIG课代表，获取最新动态就找她

关注公众号发现更多干货❤️

内容中包含的图片若涉及版权问题，请及时与我们联系删除

从直播内容安全防控架构的多模态联合识别推理讲起,看阿里安全大模型如何识别潜在风险?《追AI的人》第37期直播回放

关注公众号发现更多干货❤️

评论