黄学东:人工智能进步加速,一年难有大突破

发表时间: 2018-03-31 14:42

在微软这座AI领域的“黄埔军校”里,微软全球技术院士代表着技术人员的最高荣誉,到现在,全球也仅有20多人获得这项殊荣,其中就包括黄学东,微软唯一的华人技术院士。

黄学东1982年起就读于清华大学,1989年到美国卡耐基梅隆大学致力于语言识别研究,1993年加入微软。他现在是微软首席语音科学家,领导微软在美国、德国、埃及、以色列的全球团队,负责研发微软语音识别和机器翻译等人工智能产品和技术。

公开资料显示,去年9月,微软语音识别研究团队在他的带领下,将前年10月刷新的5.9%词错率降至5.1%。今年3月微软机器翻译团队在他的带领下取得了可以媲美专业人员新闻中翻英的历史里程碑。

人工智能技术层面,很难说一年之内有大的飞跃,我不认为明年就会比今年有很大的突破。但现在,大家对人工智能的认识已经比以前深刻了”,黄学东认为,最主要的原因就是人工智能的进步越来越快。

黄学东对比了中国和美国在人工智能领域的差别,尽管在人才流动上早已打通,但美国的技术实力仍强于中国。“人工智能三大法宝,数据,算法,计算力。从原创性研究,美国处于世界领导地位。比如开源的深度学习架构,一枝独秀的是谷歌的TensorFlow,当然微软也有自己的CNTK,中国百度也有 PaddlePaddle,这些都不足以比TensorFlow有更多的用户。”黄学东说。

但中国在数据层面独具优势,中国人口基数超过美国,黄学东表示,“有了更多的数据,人工智能就能挖掘出更有效的算法。这也是影响技术落地和产品体验能否更好满足用户预期的一个关键因素。“

“在语音识别上,微软是业界第一。但也并不能保证产品体验是最好的,因为还有数据因素的影响。 ”黄学东解释,“如果有一家公司收集了很多中国本土的数据,在同样算法和计算力下,数据更多,才能把体验做到更好。有的公司之间技术实力很接近,甚至更强,但数据不够,体验上就会较差,尤其是中国这样方言多的国家。”

除了语音识别和机器翻译,黄学东在人工智能技术落地上,还看好计算视觉,例如安防人脸识别服务、零售商品识别服务等等,他认为,人工智能技术成功的关键在于是否能赋能传统行业,真正提升行业效率。

“我们现在关注的一个中国本土公司扩博智能Clobotics,在计算机视觉、云服务、硬件方面做了很多,把人工智能技术的落地,运用在风电、零售这两个行业,他们在做的大方向和业界是完全一致的。”黄学东认为,这就是用正确的技术,在正确的场景下,落地到正确的服务上。“技术的进步不是一朝一夕的事,要应用到行业里才有商业机会。”

黄学东采访实录:

界面:目前人工智能在技术或者落地层面相比过去有没有一些新的进展?

黄学东:人工智能研发一直在做,我1982年在清华上学的时候专业就是人工智能,经过了几十年业界的努力,很难说一年之内有大的飞跃,我也不认为明年就会比今年有很大的突破。但是现在大家对人工智能的认识已经比以前深刻了,最主要的原因就是人工智能的进步越来越快。

人工智能可以分为几大的范畴,感知方面,例如计算机视觉、听觉、语音识别、图像识别,过去五年日新月异,可圈可点;更上一层是认知方面,机器学习、自然语言理解等。相对感知,认知进展会慢一些。今年微软在中翻英上达到新的水平最为可圈可点,因为这是介于认知和感知过度性的重大突破。

再往前,人工智能最大的亮点还有,一是语音交互,智能音箱的百箱大战,二是智能驾驶汽车。

界面:这几年人工智能领域人才在国内外流动很快,特别是微软这样的公司,那在技术研究上是不是趋同了?

黄学东:作为一个大的经济体,中国技术的实力越来越强是有目共睹的,中美两个国家的产业特色不一样,中国人口众多,美国地大人稀,比如高铁,航空。中国高铁四通八达,而美国的航空业相对发达,这是两个国家基本国情决定的。

人工智能三大法宝,数据,算法,计算力。中国用户数量多,数据量超过美国很正常,有了更多的数据,人工智能就通过数据挖掘出更有效的算法,这是中美差别比较大的地方,但是从原创性研究来看,美国仍占据世界领导地位。比如开源的深度学习架构,谷歌的TensorFlow算是比较普及,我们微软也有自己的CNTK。

原创性技术我们微软亚洲研究院也贡献良多。在微软,中国的人才和美国人才实力相当。中国也有很多优秀公司,百度、腾讯、搜狗、扩博智能Clobotics等,他们的人工智能都做得很好。

界面:说到数据问题,中国比美国数据更多,是不是有一个隐私保护差异的因素影响?

黄学东:我不敢发表妄议,但中国人口众多,即便是同样的隐私保护条件下,数据也会比美国多。这是没有质疑的。

界面:您在语音交互研究上是行业权威专家,这两年技术也发展很快,落地很快,你觉得在产业落地上处于什么阶段?

黄学东:语音交互已经深入到用户的日程生活中,是非常普及了,智能音箱就是一个亮点。语音交互的好处是可以远场交互,计算机视觉也可以帮助你远场交互。

我们认为,过去平台的转变是从大型计算机到个人计算机,到移动(手机),再到Ambient computing,这是一个大的趋势。

界面:很多公司都有自己的技术研发,或者有自己的产品落地,这些差别会在哪里?

黄学东:中国本土的语音识别技术公司,更容易收集很多中国本土的数据,方言也很多,同样算法和计算力下,数据更多体验有可能会更好。

数据上的优势,会给用户更好的体验,有可能技术很接近,甚至技术比其他公司强,但你的数据不够的话,体验会差一下,尤其是中国这样方言多的国家。

在公开测试集上评测的时候,微软的语音系统是非常不错的,大家可能不知道,搜狗的机器翻译系统评测得分是业界最高的,在语音识别上微软是评测结果世界第一。但是算法技术第一并不能保证产品体验是最好的,因为还有数据因素,计算力因素、延时因素的影响。

界面:也有很多用户使用智能音箱后都放一边,是不是处在实用价值还不高的阶段?

黄学东:我不能赞同这个说法,我自己在用微软的Harman Kardon Invoke音箱,每天起床,不用睁开眼开口问一问就知道几点和量身定制的新闻,刷牙15分钟还可以听音乐,生活质量比以前上了一个档次,当然Invoke音箱音质也非常好, 我每个房间都有一个台。

它已经进入了大众生活的点点滴滴,当然现在市面上很多音箱都有需要改进的地方,语音系统和远场功能不强、后台支持也不行等,但是不妨碍大局。我觉得谷歌、苹果、微软都做得很好,亚马逊的音箱在音乐和购物比较好,而且做得早,美国几家音箱都各有亮点。

界面:语音识别在中国的发展,您预计还会有怎样的突破?

黄学东:我当时在清华做语音识别研究,主要是觉得计算机语音输入会比较方便,现在移动端近场交互,很多用户都是用语音识别和输入,说明已经很普及了;第二是远场交互,今后远场功能、抗噪功能也会越来越好,慢慢深入人心。语音识别和语言理解的深度结合是下一个亮点。

界面:现在还有很多人工智能领域的创业,您有没有关注的?

黄学东:一个是计算视觉方面,刷脸、提供安全服务、零售等,另一个是语音识别和机器翻译,为用户提供流畅的交互,这两个都是非常有前景的。

我们现在关注的一个中国创业公司扩博智能Clobotics,这家公司在计算机视觉、云服务、硬件方面做了很多,把人工智能技术的落地,运用在风电、零售这两个行业,现在做的大方向和业界是完全一致的。

扩博智能的Clobotics主要为行业提供机器视觉产品,简单说,就是把机器视觉用到企业生产、运营,提高生产力和生产效率,像风力发电行业、电信运营商行业、零售行业等。

还有我们微软的团队很快要和小米硬件生态系统一同推出机器翻译人工智能机器“魔芋”,这款翻译机可以为语言不通的两个人提供即时的交流翻译服务。希望大家可以关注,试用并给我们提出更好的用户体验的反馈。