不知不觉,AI技术的渗透,已经开始超出人们的想象。

去医院照个CT,都有AI作为双重保障,通过视频画面动作识别,确定病人在进入机器前已经得到有效保护。

还有流水线产品是否有瑕疵,公共场所人们是否戴了口罩,工人是否佩戴安全帽、后厨是否达到“明厨亮灶”、应急通道是否有违停车辆等生产、生活中常见的场景,也都已经在用AI来识别检测了。

更让人意想不到的是,如上千差万别的场景,可以只用一个预训练大模型来搞定。

而且不用收集大量样本数据集,零数据即可启动、小样本就能调优。

仅需半个月,就可以完成模型训练并投入使用。

要知道,在传统算法训练模式下,一般是“一套算法对应一个场景”,换个识别对象,就需要重头收集样本数据、开发训练了。

这就导致一套算法上线,往往是几个月的长战线模式,背后需要投入很高的人力物力成本。

而在数字化改革的浪潮下,千行百业涌现出越来越多的细小场景,传统“一套算法对应一个场景”的算法训练模式遇到前所未有的挑战。

在此需求和背景下,用一个算法模型就能解决所有场景问题无疑是一剂解决问题的良方,那到底是谁率先拿出了可以“单挑”1000万个场景组合的预训练大模型?

又为什么会在此刻走入我们的视野?

AI 2.0时代开启,行业玩家技术路线已备好

这可以从基础设施、行业需求两个方面来解答。

首先在基础设施上,我国构建的视频大数据系统经比较完善。

目前,全国几亿台摄像设备,可以构成一个空前巨大的视频大数据库。

但是这些设备中,仅有20%是智能的

这意味着收集到的海量数据,实际被应用的并不多。

而且其中的大部分算法,都集中在人脸识别、车牌识别等高频应用场景上。

在低频场景中能识别的对象非常少,准确性也不够高。

与此同时,当AI发展步入深水区后,各行各业对于视觉识别的需求越来越高,碎片化场景扎堆涌现。

也就是第二方面影响因素——行业需求

正如开头提到的诸多场景,如后厨、CT室、施工现场等,在数字化浪潮的驱动下,这些细小场景也都迫切寻求智能化支持,它们共同组成了一个占比80%的长尾场景

问题在于,这些细小场景自身特点鲜明,很难用一个训练好的算法一网打尽。

比如后厨需要识别灶台上东西的摆放是否正确,工地则需要识别工人是否佩戴安全帽。在识别对象类型、物体属性、关系和行为上,这两个场景几乎没有共同之处。

如果使用传统的“烟囱式”算法平台呢?

可行性并不高。

可以用城市管理的场景举例说明。

它最大的特点就是碎片化,从马路牙子是否有破损、树木是否倒伏、车辆是否违停到窨井盖是否缺失等,几乎场景内每一个点,都是一个定制化需求。

如果使用传统算法模式,算法厂商需要根据每一个点来设计算法,单个算法的费用可能就会高达几十万。

而且还需要需求方自己去采集样本图片包,采集量少则几千,多则几万张。

然后算法公司才能拿着这些图片去训练算法,整个开发周期可能长达几个月,最后才能实现交付。

假如训练出的算法不够好,还要继续再次进行迭代,可能又要等一个多月的时间才能再次交付。

这样的时间成本、金钱成本,客户是难以承担的。

但与此同时,当AI发展步入深水区后,各行各业对于视觉识别的需求越来越高,碎片化场景在扎堆涌现。

显然要解决这样的碎片化场景的应用,必须要寻找一条新的技术路线。

在这样的背景下,预训练大模型技术横空出世。

预训练大模型从根本上改变了人工智能的技术逻辑,意味着“作坊式”模式的终结,“AI工业化”模式的到来,是开启人工智能2.0时代的具有里程碑意义的技术变革!

人工智能1.0 时代,对每一个识别的场景(目标)都要训练一个对应的算法模型,每个模型的训练都要有大量的样本并标注,也就是“一套算法对应一个场景”。

人工智能2.0时代,通过海量数据进行预训练形成一个具有通识能力的大模型,以“大规模预训练﹢微调”范式满足多元化需求,也就是“1个模型适用N个场景”。

去年,随着美国Open-AI 公司的GPT-3预训练大模型的发布,海量数据预训练对算法能力的提升肉眼可见,从而在人工智能领域掀起一股热潮,俨然成为一个新的赛道。

联汇科技,从预训练大模型赛道上跑出来的一匹黑马。

联汇科技是国内最早自主研发大规模预训练算法模型的公司之一。

同时联汇科技还发布了首款基于视觉语言预训练大模型的OmVision视觉认知平台,为视觉智能产业提供了全新的AI视觉认知基础工具平台。

OmModel——业界领先的多模态预训练大模型

OmModel是业界领先的多模态预训练大模型。

它通过大规模自监督学习的多模态人工智能算法,融合语言和视觉模态理解,完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练,实现用更小的标注样本数量,融合更多的模态信息,获得更为精准的视觉AI模型,从而实现了本文开头描述的一个模型应对千万种场景的超强能力。

OmModel预训练大模型提供了具有超强通识能力的解决方案,以“预训练大模型+下游任务微调”的方式,有效地从大量标记和未标记的数据中捕获知识,解决模型通用性差的问题,极大地扩展了模型的泛化能力,使模型更加“融会贯通”、“举一反三”。

同时,随着数据规模和模型规模的不断增大,模型精度也将得到进一步提升。

联汇科技首席科学家赵天成博士表示:

高门槛、高成本一直是人工智能产业化落地的最大障碍。

而人工智能的最终目的是要能为百行千业赋能,这就要求人工智能的应用落地门槛要足够低,成本也要控制在合适的范围内。

现在我们找到了解决这个问题的钥匙,就是通过预训练大模型,重新定义算法的生产流程,用一个算法模型搞定千万种场景,解决大量碎片化应用场景的问题,让人工智能更易用,实现真正的普惠AI,用“普惠AI+行业”的融合创新赋能更多企业与用户。

OmModel预训练大模型是预先用海量多模态数据,通过自监督训练出一个对生活中大多数人、物、行为、属性等具有强大通识认知能力的认知模型。

OmModel预训练大模型目前具有20000多种目标、300多种属性、200多种行为的强大通识能力,到年底更可以达到50000多种识别目标

而且它还具有强大的文字语言理解能力,我们可以通过文字描述,对拟识别的场景进行定义,通过目标、属性、行为三要素的灵活搭配组合,就可以生成千万种不同功能的算法应用;彻底打破了传统视觉识别算法“样本采集、样本标注、训练调参”的生产模式。

比如在城市管理的场景下,OmModel可以自动识别道路上几乎一切对象,树木、人、自行车、人的动作等都能搞定。

当我们要生成一个算法的时候,只要输入相应的文字描述即可。

如“骑自行车的男人”或者“道路上的垃圾”就可以马上生成相应的算法。

而且,用预训练大模型,能够通过更少的参数量,实现和行业知名大模型同等或者更好的性能。

平均算法模型的识别精准度可以提高40%,而训练数据量可以降低90%

开发周期由平均几个月缩短为几天,还可以拥有更快的推理速度,从而有效覆盖大量长尾应用场景。

内容中包含的图片若涉及版权问题,请及时与我们联系删除