当IT行业改变整个世界的时候,DevOps理念从大量产业实践中诞生。

如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。

Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。

图源:ml-ops.org

这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。

与之相对的是,数据的工程化稍显落后。

对此,一直呼吁建设“以数据为中心AI”的吴恩达,今年初在接受IEEE Spectrum采访时也喊出新的口号:

AI要从大数据转向高质量的小数据。

吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。

但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。

实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。

AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。

最新解决方案来了

云测数据,一家以“将数据标注的最高准确率提升到99.99%”而闻名的AI数据服务公司,率先推出「面向AI工程化的新一代数据解决方案」

方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。

平台工具方面,除了基础的标注工具、API集成能力,还有数据流转产线工作台和数据产能管理体系。

管理体系方面,分为人员管理和项目管理两部分。

数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理4个角度提供保障。

为什么是这三个方面?云测数据总经理贾宇航从AI工程化时代的不同特征进行了分析。

算法进入持续优化期,此时数据也要从瀑布式流转过渡到持续流转。

在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。

算法进入持续优化期,情况再次发生变化。

生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。

云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。

算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。

举例来说,前一阵谷歌的文本情感数据集GoEmotion就被一位机器学习工程师Edwin Chen指出有30%标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。

像这样的问题,在知识门槛颇高的金融、自动驾驶等领域场景中也有可能发生。

对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至99.99%。

最后,算法深入到实际业务中,数据安全需要得到保障。

云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足ISO27001和ISO27701标准。

内容中包含的图片若涉及版权问题,请及时与我们联系删除