微软人工智能愿景:R语言的探索之旅

发表时间: 2016-05-15 22:35

C新智元编译

作者简介:Andrew Brust 在软件行业有超过25年的工作经验,是开发者、咨询师,也是创业者和首席战略官,在应用开发、数据分析和商业智能科技方面是专家。他曾做过开发者杂志的专栏作家,大会演讲嘉宾,从2005年起,出过科技方面的书。现在,他是数据分析公司Datameer的技术产品营销高级总监。

R的语法是来自Scheme。基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R语言本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发,现在由“R开发核心团队”负责开发。

Andrew Brust:在数据专业中极度流行的开放资源程序语言——R,似乎成为了微软最新的信仰。并且,随着融入R语言版本的SQL Server 2016 在6月1日对公众开放,新一轮的洗礼即将到来。

为什么微软要把一门开放资源程序语言融入其旗舰商业数据库中,要知道,这可是微软最赚钱的产品之一。即便这一问题可以找到答案,我们还要考虑,微软也把R语言融入了其HDInsight, Azure Machine Learning 和Power BI 云产品以及Visual Studio开发环境当中。

那么,这是怎么回事?除了技术本身,政策、领导人以及公司策略因素也在发挥作用。想要理解后盖茨或后鲍尔默时代的微软,这是一个值得深思的问题。

开放性

首先,微软对资源开放的取向现在已经是一个事实,而不是一个问题。公司现在已经认识到,开放资源平台是真正的行业标准,并且,喜欢产品的消费者会支持这些平台。微软已经有了HD Insight,这是一个基于开放资源Hadoop和Spark技术的大数据平台,在Linux上运行。微软正在为Linux开发一个SQL Server版本。还有能在Windows、Mac和Linux上运行的VisualStudio Code。此外,Azure云上大量的虚拟机器,都可以运行Linux。

但是,除了采纳开放的行业标准外,微软还做了许多别的事,去年4月,微软收购了数据分析公司Revolution Analytics,希望能在开放资源上占据领先地位。

Revolution在R语言上的铺垫

微软的这笔收购是明智的:交易完成前,Revolution采纳了R语言,这是一种客户端的、受存储器限制的技术。Revolution首先把它变成以服务器为基础的、多线程的。Revolution的第二步是建立一个分布式R语言产品,能够在聚合的/网格环境中运行,这样它就能承担大数据的工作负荷,而不是采用抽样的方法。

最后,为了解决在把元数据转化成R语言(在客户端或者服务器中)时的无效性(偶尔的不可行性),Revolution创造了其服务器产品的集成版本,面向Hadoop和其他不同的数据存储平台。可能有点讽刺的是,Revolution并没有为SQL Server创建这样的一个版本,虽然效果已经得到了验证。

人为决定因素

除了技术的匹配,这里也要考虑人的因素。在与Revolution的交易完成时,微软的CEO Staya Nadella刚刚上任满一年,他是开放资源和数据技术的推崇者。Nadella在成为云和企业部门的总裁前,曾在Bing业务部工作,他对大规模的分析有着极大的兴趣。他也是推动微软从自己建立的Dryad技术转向Hadoop的人。他在“智能系统”“隐形智能”以及“数据文化”等概念上都有漂亮的阐述。

另一个重要人物是 Joseph Sirosh,他在进入微软前曾在亚马逊工作,职位是副总裁和首席战略官。Sirosh在微软的职位是全球副总裁,负责数据业务,地位比之前要高,他主要的关注点是机器学习。他最为出名是的在“Connected Cow”大会上的Strata主旨演讲。Azure的机器学习是Sirosh一手建立的,据说,Revolution的收购也是他主要促成的。Sirosh直接向企业和云部门的执行副总裁Guthrie汇报,他自己是微软开放资源技术的拥护者。Guthrie则直接向Nadella汇报。

R语言的融入

把R语言融合到SQL Server中是很明智的,不过也有一点多余。在工作台上习惯了使用R语言的数据专家和分析师也自己都可以做到这一点,他们也能在SQL Server上执行实际的计算工作。通过使用Revolution提供的一系列R语言功能,以及一系列标准R语言功能模拟,R语言的支持者能够在自己的R语言代码中设置“计算环境”,来适应SQL Server。随后所有的事都可以远程执行。

此外,在SQL Server的本机语言Transact SQL(T-SQL)中编码时,能够以一种“多语言(Polyglot)”的样式运行,在这儿,R语言代码被嵌入。不幸的是,T-SQL把R代码看成是一个简单的文本串,并把这些文本串发送到一个特别的系统,预先存储,以最终执行。这意味着,R语言代码在被执行前,并不会被标注彩色,以进行强调或检验。开发者在测试他们的R语言代码前,会被建议先在客户端工具中试行,随后再移到SQL Server中。

这种方法的优点在于,R语言代码的运行并不需要特殊的模型来驱动。SQL Server在2005年采纳了.NET代码,但是需要特殊的模型来驱动,结果没能大范围的普及。R语言的引入,对其有更加简单和更自然的适应,对于用户自定义的聚合这类的事情来说,有人认为.NET代码被认为是SQL Server中最有效的,但是,R语言似乎更加强大。

数据和机器智能为先,为终,为常

但是,总体看来,这并不仅仅是关于R语言,而是关于微软的定位。微软已经决定,下一代的由云驱动的计算将会以数据驱动的智能为特征,不管是平台、应用还是设备。

云是变现的地方,在Azure上拥有一系列强大的数据服务,能够建立起微软的信誉,也会最终带来收入。所以,实际上,公司“移动为先,云为先”的口号其实应该是“数据和机器智能为先,为终,为常。”

活动预告

第九届中国R语言会议(北京)

2016年,是统计之都倡导的中国R语言会议第九年,也是统计之都成立十周年。本届R语言会议将与第七届中国人民大学国际统计论坛、2016百分点数据与价值国际论坛联合举办,共同组成迄今为止中国最大的统计盛会——大统计与数据科学联合会议。

中国R语言会议是由统计之都发起,并同国内高校共同举办的R语言与数据科学会议。2008年,中国R语言会议在中国人民大学举办第1届,2015年已发展至全国七个城市举办,报名人数近万人。内容覆盖数据科学及R语言在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域。

R语言会议不断发展,统计之都也已走过了十年风雨。十年间,统计之都服务着广大统计学爱好者,推动着R语言在中国的不断发展,见证着数据科学时代的逐渐崛起。在这样一个值得纪念的时刻,让我们相聚人大,相聚统计之都十周年庆典,也相聚这场数据与统计的盛宴!

会议的相关情况如下:

会议时间

2016年5月27日~29日

会议地点

会议在中国人民大学举办:

  • 5月27日:世纪馆

  • 5月28日:逸夫会议报告厅、国学馆报告厅、第一教学楼

  • 5月29日:逸夫会议报告厅、国学馆报告厅、800人大报告厅

会议演讲

截至目前,本次大会共筹备了Keynote专场(27日)和22个分会场(28~29日)。分会场主题如下:

1.互联网征信(考拉征信专场)

2.汽车联网

3.自然语言

4.概率统计

5.可视分析(Tableau冠名)

6.医疗健康

7.量化分析(量邦冠名)

8.智能制造

9.计算平台

10.生物医疗

11.商务分析

12.生物统计

13.软件工具

14.经济金融

15.生物信息

16.机器学习A

17.智慧城市

18.软件工具

19.推荐广告

20.社交网络

21.机器学习B

22.时空数据

参会者报名

在线报名已经开放,请点击页面右上方链接报名。请务必用A4纸打印门票,进入会场时候需要凭纸质票进入!此外,请务必保证您的门票上的名字和身份证或者护照上的名字完全一致,以免无法进门。报名审核只是为了确认报名者身份的真实性。本次会议不收取任何费用,交通、食宿等花费自理。为会议参会者(以在线报名结果为依据)免费提供会议材料,请报名的朋友们尽量前往参会。

联系方式

新浪微博:@统计之都

微信公众号:统计之都

会议联系邮箱:chinar-2016-bj@cos.name

信息来源
:http://china-r.org/bj2016/index.html

「招聘」

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 jobs@aiera.com.cn

点击“阅读原文”了解 R 语言会议详情