这是一篇翻译文章。
数据的爆炸增长以及公司将数据转化为商业价值的巨大可能性,不断增加着市场对数据科学家的需求。
但是,一个合格的数据科学家必须具备哪些技能,拥有什么样的教育背景呢?数据科学家在团队中的角色是什么?数据科学家大多使用什么工具和编程语言呢?这些就是米兰理工大学的大数据分析观测台通过一项针对数据科学家的国际调查正在研究的部分问题。如果你的工作与数据有关,也可以支持一下这个完全匿名的调查( survey)。
除了基础的数据科学相关的技能,编程是数据科学家务必要具备的五种主要能力之一,即使就专业知识而言这不是最相关的。
迄今为止世界范围内已经有超过200位数据科学家参与了调查,然而结果显示并没有一种在数据科学领域占绝对优势的编程语言,但是也似乎主要集中在有限几个选项里:几乎96%的参与者断言至少要用R,SQL或者Phython中的一种。
值得一提的是,当前的调查中排名第一的是53%的数据科学家选择的的由R Foundation for Statistical Computing提供支持的R语言。一开始R主要是在统计学家或学术圈内流行,但近几年被相当多的应用于数据科学。如今R是最受欢迎的开源语言之一很多大型的网络社区都支持它。
即使早在20世纪70年代初就得以发展,SQL在当今仍然发挥着重要作用(约49%的数据科学家选择SQL,排名第二)。尽管SQL不太适合处理非结构化的数据组(典型的比如大数据),但是分析组织中结构化的数据仍然很有必要,而SQL就非常适合用来处理这类数据。
排名第三的Python(43%)因为灵活而且相当容易上手,近几年大受欢迎。和R语言一样,也有很多大型社区致力于促进Python的提高并且建立一些特定的packages。
前五名中最后两个分别是Unix Shell/AWK/Gawk(15%)和Java(8%)。
如果你是一个数据科学家并且想要得到更详尽的调查结果包括研究的主要发现和最终结果,完成调查问卷并留下email,我们可以发送给您资料。