贾扬清:云原生是数据智能的未来

发表时间: 2019-11-24 17:11

大数据文摘出品

11月19日,国内领先的全域数据智能服务商友盟+在以“聚云端·见不凡”为主题的2019UBDC全域大数据峰会上,与40余位行业专家,3000余位观众共话云端之上的数据应用,为企业实现数据智能找到了新的解法。

阿里巴巴集团副总裁、阿里云智能计算平台事业部总裁贾扬清在《云原生是数据智能的必然》的演讲中提出:数据智能向云端迁移是必然趋势。他认为数据是企业新的生产力,技术体系的云化、智能化,是解决企业数字化转型的首要条件。

以下内容来自贾扬清在大会上的发言,大数据文摘进行了不改变愿意的编辑。

云原生是数据智能的必然

今天我想从技术的角度来讲一讲为什么说到数据智能、说到云的时候,我们觉得它是一个天作之合的关系。我自己是从人工智能这样一个背景出发的,前面几年也一直都在关注,人工智能这样一个很热的概念在落地的时候应该怎么做。

这几年我们说到人工智能时候,大家可能觉得是一个突然从石头缝里蹦出来的概念,在所有的领域里面都开始看到人工智能的应用。如果我们从历史上来讲的话,人工智能其实是一个相对很古老的概念,几乎跟计算机的历史一样悠久。

图灵当年提出“图灵测试”这样一个概念,希望能够测试出一件事:让计算机能够有这样一种方法来实现像人一样的感知、归纳、分析和决策。

过了这么多年,我们发现人工智能在各个领域都有非常深的应用,比如交通、工业、农业等,这是最近几年发生的情况。但是我们往回看的话,人工智能在2、30年前其实就已经有了很多点状的应用。当时我们手里拿一个佳能或者尼康相机的时候,这里面有一个功能叫“人脸自动识别和对焦“;IBM在20年前的时候也有这样一个功能,叫“VR WAS”,通过语音识别进行输入,这些都是人工智能向大家提供的一种能力。

但是当年我们在考虑到人工智能的时候,这些能力都是点状的,它有一个小的特征,能够解决单个问题。不像是今天我们在考虑金融智能、智慧法院、智能遥感等这一系列应用的时候,得到一个系统性的、完整的解决方案。

这当中我认为一个非常重要的原因,是我们今天越来越多的、越来越强烈地使用到了云的技术,也许并不一定是在云上,但是用了云的系统化的这样一个技术来解决从数据到分析,再到决策这样的一整个过程,这就是我自己对于云技术和原生技术非常热情的缘故。

我们说到云的话,那么今天阿里云最大的用户是谁?大家可能会想是外部的哪些公司,或是一些创业公司等等,但是今天其实阿里云最大的用户是阿里巴巴自己。

AI和大数据的未来趋势:实时化、规模化、智能化

“双11”刚刚过去,对我个人来说,我今年加入阿里巴巴之后体会了两个第一次:我第一次作为一个客户,参加了“双11”的这样一个活动;另外一个是我作为平台技术的提供方,第一次参加阿里巴巴“双11”这样一个支持的活动。

今年阿里巴巴是第一次100%的把自己的核心系统搬到云上面来支持“双11”的项目,我想跟大家分享一下我们今天所看到的在云上,阿里自己的业务所见到的一些趋势。

我想把这个趋势归结为三点:实时化、规模化、智能化。

实时化

实时化这个概念大家可能比较有体感,就是在“双11”活动的时候,可以看到顺时播报的销售额,比如第一个小时销售额达到了多少?第二个小时销售额达到了多少?最后24点钟声敲响的时候,公布今年的销售额是2684亿。

这背后是一个非常实时的,顺时在进行统计的系统,我们把它叫作Flink。以前我们在做大数据的时候,更多的是把数据沉淀到数据库跟多种数据源当中,然后再从数据库中归纳出来,或者说统计出它的数据是怎样的一个分布,怎么样的数字。

今天我们在做这些计算和统计的时候,完全是通过消费的数量,直接沉淀到我们的流式系统当中,我们并不需要离线计算达到这样的效果。那么从“双11”的结果来看,今年流式计算的体量比去年峰值增加了近一倍以上,这是今天我们在云上所提供的一个能力。

规模化

大家可能会想这个数字每年都这样说,今年有什么区别?我想从规模化这个角度讲一个我们可能没有讲过的故事。

“双11”每年的销售额跟平日比较都是非常高的,那么每天的销售结束之后,我们要做一件事情——离线结算,商家应该如何收钱,银行应该如何收钱。

我们以前怎样解决这个问题?“双11”体量很大,我们算的比平时要慢一点,比如平时8点算完,那我们“双11”的时候可能10点算完,这很正常。但今年是自“双11”以来,第一次数据算的跟平时一样快。

这是我们在阿里巴巴这样的体量上感受到的通过云的技术所产生的红利。规模化,在阿里巴巴这样一个弹性的系统需求上面,也能够体现出非常重要的作用。当然我们说实时化和规模化是两个非常自然所需要的东西,我们今天还有一个非常重要的方向是智能化,智能化能够解决什么样的问题?

智能化

在考虑智能化的时候,我们发现有两个它能够解决的问题:

  1. 帮我们更好地解决现有问题;
  2. 创造新的场景。

那么,在这样一个过程当中,我发现一个很重要的场景是如何通过语音助手给大家提供更好的客户体验。

我说的可能比较虚,所以我想给大家分享一个音频,是我们在语音助手方面,通过系统化、智能化达到的样子,这是在实际测试的时候,菜鸟语音助手与用户交互的场景:

-您好,您有一个上午送到文一西路588号的中通快递,请问方便签收吗?

-你哪位?

客户一般都比较懵。

-我是菜鸟语音助手,在快递员派送前跟您电话确认,上午送到文一西路588号,您看方便吗?

-我上午不在家。

-您方便留一个接收地址吗?我转告快递员为您安排。

-是什么东西啊?

-物流单上显示是文件,要么您留一个方便接收的地址,我转告快递员安排配送。

-帮我放到物业吧...算了,还是放在门口吧。

大家经常会改主意。

-是送到门口吗?喂?还在吗?给您放在门口可以吗?

-可以的。

-好的,我会将您的要求转达给快递员,请您注意查收,感谢您的接听。

-对了,我好像还有一个中通的包裹,今天会派件吗?

大家需求会比较多。

-您稍等。这里看到您还有一个中通快递的包裹,预计明天到达。

-明天我要出差,直接放到菜鸟驿站就好。

-好的,给您放在北门一楼的菜鸟驿站是吗?

-是的。

-好的,请注意查收,感谢您的接听。

这个技术的背后,其实不光是语音识别和规划系统,还要跟我们本身的物流,业务的场景结合起来,我们需要打通非常多的数据,才能够实现最后这样一个端到端的结果。

当然,智能化并不一定就是单纯来解决现有问题的,我们需要解决人工无法解决的问题,有的时候我们还能够通过智能化的方法创造一些新的场景。

一个非常有意思的事情,我们想想20年前在上优酷网站的时候,我们能够看到的是什么样的内容?基本上是“千人一面”,每一个人看到的都是一样的,就像我们走进百货公司。

今天有一个概念非常深入人心的概念是“千人千面”,我们每一个人在上淘宝的时候所看到的图片、商品是不一样的。还有这样一个问题,“千人千面”只解决了推荐这一个问题,我喜欢什么样的商品,我朋友喜欢什么样的商品,但是当我们看见同一个商品的时候,它的内容是一样的,对吧?

我看见一个鞋子跟我朋友看见一个鞋子,展示内容是一样的。那么我们可以通过智能化的视频理解与生成,加上用户的兴趣,通过这个视频以人工智能的方法来实现动态的展示,对于任何一个客户来说,他所看到的不光是我们向他推荐的商品,而且是我们向他合成展示的,和他个性化相结合起来的一些内容。这样的环境给我们的客户带来了非常有意思的新的体验,那么您可能会想这到底有没有实际的作用?

在“双11”前面的这段时间,我们系统累计分析了2.5亿个视频,它所能够实现的效果是什么?平均一个客户会有大概两分钟的时间在观看我们所自动生成的这样一个视频,这是我们从传统的“千人千面”的推荐,再进一步通过智能化的方法来给大家提供智能化内容的生成和内容的体验。

这是我们今天说通过大数据和人工智能的方法,向大家提供实时化、规模化和智能化三个大的方向。

不断演进的技术架构

这个背后,我们可以看到今天数据对我们来说非常重要,对一个公司来说,数据可能是他自己核心的一个资产。在大量数据的基础上,我们会通过实时计算、机器学习,同时利用我们云上的强劲算力给我们提供不同的用户体验以及更好的业务价值。

从数据的体量来说,在阿里巴巴这样一个体量上,图片识别、语音识别跟个性化推荐,都会涉及到非常大量的数据处理、数据存储和数据分析的需求。这是我们今天在云上所能够提供的价值。

从业务的角度来说,我们发现数据、智能、业务有了越来越多的连接,我们就开始考虑技术架构应该怎样演进。

如果在我们10年前或者15年前考虑大数据,大家可能会想起一些耳熟能详的概念,比如Hadoop、MapReduce,当年通过离线的方式来处理大量的数据。那时数据处理平台也是相对比较简单的。

今天,数据开始逐渐变得实时化和智能化,我们的系统也不断的演进,在底层引擎上面开始有离线的计算,在线的计算,还有交互式的分析。而我们的开发者平台也开始越来越多地考虑到数据集成和数据服务这一系列的需求。

假如说数据是我们的核心资产,那么显然非常重要的是:

  1. 保护核心资产,做数据安全。
  2. 了解我们到底有什么样的数据,做数据和资产的管理跟安全。
  3. 如何在不同的部门之间分享数据的红利,这是数据分享的问题。

当然在数据使用的时候,我们还需要不断地考虑,从这些数据当中挖掘出来的算法,它的质量怎么样?我们到底在使用数据当中的一些噪声,还是在使用数据当中的一些Insects(原型)。

今天,这样一个数据计算引擎跟数据开发平台上面支撑着非常多的与业务相关的平台,比如像友盟+这样给大家提供最终服务的平台。不光是大数据,今天我们说人工智能也逐渐变得非常重要。那么我觉得阿里巴巴应该是在业界率先提出了两个平台(大数据平台、AI平台)相结合的这样一个概念。

"数据为体、智能为用"

大家在说到数据科学家的时候,今天可能会听到这样一句话,数据科学家越来越多的开始学习Python。如果往回推10年15年的话,当时的数据科学家可能会用一些统计的软件,Excel、SAS、SPSS。

那么就产生一个很有意思的问题,为什么今天大家使用Python?难道以前那些工具不够?

Python是一个表象,我们发现今天随着人工智能算法的不断进步,所有的开发者们都开始不由自主地考虑这样一个问题。

利用已有的打包好的算法已经不够了,我们要从数据当中挖掘更深更多的价值,就必须要更加沉浸到一线的,算法的开发与迭代当中去。

那么今天每一个数据科学家,每一个开发者都多多少少会用到一线的人工智能算法研发的场景。

我们今天看到的大数据平台(以前基于RDD平台)和AI基于Python非常深刻的建模平台之间,是有区分度的。所以我们在AI方面,开始建立一系列让大家做模型迭代、模型训练跟最终部署的一套工具。

但同时AI算法离不开大数据的底座,离不开大量的数据的输入输出,这个时候我们在阿里巴巴就提出这样一个概念,叫"数据为体、智能为用"

“大数据的底座,是推动人工智能引擎的燃料”,我们的AI平台是从大数据这样大量的数据当中提炼出经验,提炼出体验,最后得到决策。那么通过大数据平台与AI平台的结合,我们才能够真正挖掘出数据当中的价值。

数字产业化&产业数字化

当然大家可能会觉得,阿里巴巴自己本身是一个使用数据、使用人工智能非常优秀的企业,那么今天我们在云上面所看到的客户是怎么样的,我们到底在客户的需求和归纳上面是怎样的一个想法?

今天我们在考虑云上的客户,在归纳云上客户需求的时候,大概可以归纳出来这两种方向:

  • 数字的产业化;
  • 产业的数字化。

我想举两个客户的例子来说明数字产业化和产业数字化分别是怎么样的关系。

数字产业化:在大数据基础上挖掘深层价值

第一个例子是中青看点,一个拥有的千万级用户的新闻聚合平台,像中青看点这样的企业有着非常典型的特征,它本身就是架构在大数据的这样一个基础上,所以它对于数据的把握,数据的理解,或者说对于数据重要性的认识非常深刻。那么在这样一个环境当中,它所需要做的事情是如何从数据当中挖掘出价值来。

对于像新闻聚合或者像视频、电商这样一个场景来说,最重要的事情是推荐。推荐说起来非常简单,我有很多的用户和产品,这个产品有可能是商品,有可能是视频,有可能是新闻,怎么样把用户跟产品之间的相似程度,以及把用户的兴趣建模出来?

大家可能认为两个算法工程师就可以了,但是如果我们深挖下去的话,有非常多的细节问题需要去解决。比如说一个新用户,系统对他一无所知,这时候我们应该做什么样的事情?突然上来一个新的视频,我们应该向他推荐什么样的内容?

有一个词语叫“探索”,我们向他推送一些我们觉得他可能会感兴趣的内容,在探索的过程当中,我们会逐渐的开始对这个用户有更深的理解,他是喜欢体育还是喜欢文化,喜欢美剧还是韩剧。通过这样的探索之后,我们就可以来最优化用户的体验。

这一整个过程不光是单纯的推荐系统算法,写一篇论文那么简单,我们需要一个系统化的能力来做实验的管理,来做我们的用户信息管理,最后推出一个完整的系统来做这样优秀的推荐系统。

今天我们通过云上的技术,通过一些方法论的迭代,可以向中青看点这样的公司提供一个非常明显的CTR的提升,最终我看到用户也开始越来越喜欢这样一个平台,他会在这个平台上面花更多的时间了解他感兴趣的信息。这是很多企业所需要的能力。

我们怎么样把数字化的想法,通过人工智能更加深刻的和它的产业实现,和它的需求相结合?那么就引出了另外一个可能更加有潜力的方向,产业的数字化。

产业数字化:传统企业转型之路,难走也要走

所以我想举一个大润发的例子,大润发是一家超市。我在前一段时间跟我们家小孩打电话的时候,我跟奶奶说,我们在做大润发的数字化,她说超市为什么要数字化呢?这是我们老一辈对于数字化的想法。

但是今天非常多的传统产业可以强烈的感受到,或者说获得了数字化的红利。对于大润发这样的一个企业来说,它有线下的渠道来把人、货、厂结合在一起,线上通过电商这样的渠道和用户建立更深的连接,在这样一个环境当中,我们就会非常强烈地需要把数据打通起来,线上的数据、线下的数据、用户的数据、库存的数据以及不需要的数据。

今天传统的企业会遇到这样一个问题,大家在想数字化转型的时候认为太贵,转不起,这是个现实存在的问题。我自己经常反思,因为我自己是一直在IT的产业发展,所以我感觉不到数字化转型的痛苦。

的确我们发现有很多的传统企业术业有专攻,它本身并不是构建一个机房,构建一套云服务的,这个时候转型的确存在现实的困难。但这是一个很自然的问题,同时也是很好解的问题。

我们想一下,如果今天想做一个智能办公系统,应该怎么办?我们不会自己从一开始写一套Office,因为有一个非常完整的Office套件,无论是WPS还是Windows,今天我们有非常多的工具可以让大家更加容易地构建起整个数字化转型的基础。

就像2、30年前的时候,每个公司或者事业单位里面都有两样东西,一个是水塔,因为当年自来水系统不是太好,经常会停水;另一个是自己的发电机,因为当年供电不太好,像这种基础设施很多事业单位还需要自己来解决。那么今天大家都觉得是一件很容易的事,接上自来水公司,接上国家电网就可以。

今天我们说IT的技术,也像是当年我们在考虑水和电一样,它本身是一个非常唾手可得的,在云上面构建起来的这样一个能力。

我们在服务大量客户的时候发现大家的需求是有一个共性的,今天我们有大量的不同的数据源,通过不同的数据采集,无论是IoT还是线上的环境,来把数据沉淀到不同的数据源当中来,我们需要构建的就是一个数据开发与治理的流程,以及更加高效的数据存储。在大数据或者人工智能的场景当中,可以用这些数据来做大规模的离线计算,交互式分析和流式计算。

通过机器学习来做数据的感知、分析、归纳和决策,最后把我们这些智能化的方法再输出到智能化的系统当中,或者说给我们企业的管理人员来展示更加有结构化的,更加有深度的数据分析的结果,让大家能够做更详细的业务决策。

数据智能之路:工具是基础,方法论需不断迭代,二者结合是关键

说到这里,我还是要泼一盆冷水,在软件工程当中有这样一个概念,“没有银弹”。今天是不是在云端就能彻底解决问题?从一个做云的大数据和AI平台的研究人员和开发人员的角度来说,我觉得不够,为什么?

还是刚才那句话,术业有专攻,要依赖一个计算平台来解决所有的业务问题是不够的。就像今天我说我把我的小孩送到一个好的学校去是不够的,我们还需要有更好的方法论,还需要一系列的学习,不断地迭代、开发,不断地发展,才能够把这个东西做好。

从这点来说,我觉得非常欣慰。今天是一个非常好的场合来跟大家探讨,讨论工具和方法论这两点内容。工具是基础,是让数字化转型、数字跟产业的结合变得更加容易的基础。像友盟+这样的平台可以给大家共享、分享和不断的探讨更好的方法论。我们从阿里巴巴的实践,从友盟+那么多客户的实践当中归纳出来的建议和一些方法论,能够帮助大家更好的思考,在应用数据智能的时候,应该怎样走更好的道路。

通过工具和方法论的结合,我相信我们能够把整个产业、整个社会的数字化转型和数据智能的落地做得越来越好。这点我还是非常相信云原生这样的环境,是我们通往数据智能的必经之路,也是对我们数据智能加速发展起到关键作用的媒介。这是我今天重点想向大家分享的内容,谢谢大家。