日,以CV(计算机视觉)起家、随后晋身“中国AI四小龙”的云从科技IPO申请已通过科创板审核,若后续进展顺利,云从有望成为“AI第一股”。

实际上,同在四小龙队列的其他三家公司,在证券市场的表现一直不尽如意。旷视科技2019年曾经冲击港股上市,2020年赴港上市计划搁浅,后来又在2021年3月冲击科创板上市,目前仍在排队状态。而依图科技也曾经冲击科创板,后于2021年6月撤销上市申请。

作为四小龙领军者的商汤科技,虽然有关融资的声音传出不断,但依旧没有落实上市的具体细节。

当下真的是AI四小龙上市的最佳时机吗?

7月16日,国家网信办会同公安部、国家安全部、自然资源部、交通运输部、税务总局、市场监管总局等部门联合进驻滴滴出行科技有限公司,开展网络安全审查。

一时间,凡是涉及大数据的互联网行业企业,都有风雨欲来的感觉。

业内人士认为,以深度学作为核心AI理论的AI四小龙,其实已经感受到了非常大的压力。

甚至有言论表示, AI四小龙现在要过数据安全关了。

#01

绕不开的核心

现在说AI四小龙必须重视数据安全,跟他们所采取的AI核心理论有关。

经过多年发展,AI技术已经从2006年多伦多大学的杰弗里·辛顿教授对外发布自己的那三篇关于深度学的论文开始,逐渐衍生出众多的流派。

现在主流的是三大技术领域,也就是深度学、机器逻辑和人工大脑。

所谓机器逻辑是希望通过算法和数据的叠加,让计算机具备符合人类社会要求的逻辑和方法论,可以自主在某个领域判断并分析相应问题,并得出答案。

所谓人工大脑,实际上是通过对人类大脑组织的研究,利用计算机的能模拟和算法组织,形成类人工大脑功能和工作机制的计算机集群。

以上两种人工智能理论,要么是从行为上希望能模拟人类的运作,要么是从大脑结构上希望对人类解析从而产生技术上的突破。问题是,这两个领域现在都是在探索阶段,离相应产品落地还有很长的距离。

当下AI技术落地最普遍的,还是深度学

深度学技术意味着计算机要进入学样本数据的内在规律和表示层次,这些学过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。

它的最终目标是让机器能够像人一样具有分析学能力,能够识别文字、图像和声音等数据。深度学是一个复杂的机器学算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。

在深度学之前,哪怕是百度这样的AI巨头,都无一例外经历了穷举法的所谓“特征工程”阶段。例如最早的阿波罗自动驾驶台,所有在AI中计算机应该对路上发生行为进行的反应,都是由线下的工作人员根据人工对此的反应进行的标注。

一方面,每个人对任何事项的判断和反应都有着不同,这些不同积累到一定程度就容易引发AI系统的结构化错误;另一方面,要想完成庞大的面向社会层面操作的AI系统,那这种数据标注的结构下,又要动用大量的人力和时间。

这种数据标注的“特征工程”方式实际上是一种“伪”AI,人类训练计算机只是进行一种简单的因果关系,而并没有掌握事情的本质。

年来,研究人员逐渐将“特征学”和“规律发现”等AI方法结合起来,对原本已有督学为基础的卷积神经网络,结合自编码神经网络进行无监督的预训练,进而利用鉴别信息微调网络参数形成的卷积深度置信网络。

与传统的学方法相比,深度学方法预设了更多的模型参数,因此模型训练难度更大,根据统计学的一般规律来看,模型参数越多,需要参与训练的数据量也越大。

而随着计算机技术的进步以及分布化网络的形成,越来越多的算力,可以通过网络协调提供,这也就给人类AI技术的发展提供了一个新的基础。

可以说,深度学逐渐成为AI的主流。另外,由于大量数据的引用和积累,深度学跟数据安全之间,也产生了必要的联系。

#02

深度学的痛点

实际上,在数据安全方面,深度学有着自己基本无法解决的痛点。

由于深度学是建立在大量数据的应用与计算机训练基础上实现,基础数据的获得,对于深度学技术的落地非常重要。

比如特斯拉被人诟病的摄像头自动驾驶技术。马斯克一直不愿意采用激光雷达作为关键地标数据的测定工具,坚持使用摄像头来采集道路信息,基于庞大的已有汽车上路数据的训练,特斯拉本身汽车的自动驾驶技术稳定相对来说很强。

AI四小龙也是如此,这两年的发展都跟大量基础数据的积累有关。

媒体报道显示,依图在“AI+医疗影像分析”方面所有突破,背后是海量的医疗影像图片的分析;云从在金融领域的AI学和数据分析方面领先,不完全统计其服务的金融公司就超过50家,日常AI系统处理的数据也是一个无法想象的数量;而旷视科技围绕AI核心的行业物联解决方案是优势,成百上千万的物联网数据交换过程是旷视科技最核心的技术基础;另外,商汤在监控分析和城市管理等方面与政府和企业达成了不少合作,这也需要大量数据进行底层支持。

另外这4家也陆陆续续发布了一些新的技术服务,而这些新的技术无一例外都跟大数据的获取和分析一脉相承。

比如商汤科技在上海车展期间发布了自己的座舱AI数据化解决方案,功能直逼华为数字座舱,与特斯拉的一系列操控系统和自动驾驶功能类似,当然这也需要海量数据(603138,股吧)对系统进行驯化,才能产生更加准确的结果。

如今国家对数据安全的重视程度越来越高,这也就意味着以前利用客户数据大量积累,调试系统的时代一去不复返。

毕竟根据刚刚公布的征求意见稿,相应用户在应用中的数据企业如果想要采用,必须事先得到用户本身的许可。

这从一个角度无形中提升了深度学的难度,并让四小龙现有技术的进一步拓展和新技术的落地产生了一些问题。

#03

私有云的无奈

所有的AI企业在遇到数据安全的时候,都会有一系列的预案。其中只为客户提供技术,而数据训练和学的过程留在客户自身系统中完成,已经成为不少国内外AI巨头,在遭到数据安全阻击的时候采用的重要产品策略。

根据市场一般的操作方式, AI企业只负责制作算法和系统封装之后的系统提供给用户,并帮助用户建立自己的私有云和数据空间,然后由用户根据相应的格式上传历史数据,让系统自我进行深度学,最终完成用户在 AI领域功能的定制。

这种私有云的部署方式,看似完美解决了AI企业技术研发和用户数据安全之间的矛盾,然而,这样的情况背后还存在着一个无法解决的问题。

实际上所有这4家企业做的技术都是基于深度学而深入学,即使出来一个可以安排客户私有部署的AI系统或者台,它一定会对某一个行业的数据进行过总结,也一定会有基础数据进行训练才行。

而当下的AI技术并没有进化到系统可以自主学,并树立独立人格和思维方式的时代,所有的系统都必须有一个知识边界,这个知识边界是越画越小才能越来越精确。

在这种情况下,AI四小龙推出的任何一款AI产品,事先都会经过哪怕是针对泛行业的数据调教和深度学,形成一定的认知基础,才能作为针对特定行业的产品交付企业使用。

否则,AI公司只能是依据经验和猜测开发一套系统交给客户使用,还必须利用客户的数据对其进行调教和进化,而最终这套系统到底收不收客户的钱,就成了一个重要的问题。

这其实是数据安全背景下,倡导私有云模式解决问题的AI公司最大的无奈。

即使是已经具备完善深入学解决方案,而且在其他企业都被训练过的AI系统,在交付新客户使用的时候,客户对自身数据的安全担忧会更加明显。

因为当下这个被AI公司推出的系统精确度非常高,就意味着他们使用了以往客户的数据,而新客户的数据是否被使用,就成了一个无法被保证的问题。

这种信用上的尴尬,有时候会引发行业客户订单的雪崩。

#04

等待进化

业内人士认为,在国家注重数据安全的背景下,四小龙唯一可行解决的办法,就是将行业普遍的AI系统转换成定制系统开发的产品。

因为不针对行业推出产品,而只为单独客户定制和开发AI系统,所有的数据安全则由客户本身承担,这样可以完美绕过国家对数据安全设下的防线。

但这5年的实际操作过程告诉我们, AI四小龙面前这条看似走得通的路,实际上是一条不归路。

因为每一个AI企业的下游都有不同的行业,以云从科技为例,金融、安防、交通等都有要服务的客户,应用的场景就更多了。而不同的场景适用的AI模型、底层算法都不同,如何让技术和操作系统最贴合某一个场景,需要不断地探索。

现在的人工智能处于发展初期,相关技术和应用场景的定制化解决方案迭代速度也比较快,以云从为例,其产品迭代周期一般只有2-6个月。不难看出,AI行业的研发是个持续时间长且投入高的过程。

这同样也是技术落地比较难的原因。再加上项目之间有明显的差异,定制化产品多于标准化产品,成本就会不可避免地往上走,看起来AI是高毛利率的行业,实际上血亏。

这也是为什么四小龙有三家正在上市,公布的财报中全是亏损,而且亏损的幅度在大额上升的重要原因。

况且,《中国成长AI企业研究报告》指出,人工智能领域巨头盘踞,业界的龙头企业往往会向市场开放框架或者算法技术台发展,为更多的企业提供基础支撑,而一些市场规模还不大的细化场景,巨头公司基本上不会涉足。

这意味行业不够大,企业自身的发展受限制,行业足够大,又容易引来巨头。

所以,数据安全被国家重视之后,AI四小龙的一切商业模式都等待着进化。

因为,不变就可能会“死”。

推荐内容