当今,我国在大数据的研究应用已走在了世界前列,什么是大数据呢!
大数据的定义
广义的定义。大数据是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
相比较而言,技术定义比较通俗易懂。
要做什么?——获取数据、存储数据、分析数据
对谁做?——大容量数据
目的是什么?——挖掘价值
获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。
大数据,到底有多大?
我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是500GB/1TB/2TB的容量。
大数据的级别定位
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
而大数据是什么级别呢?PB/EB级别。大部分人都没听过。其实也就是在TB基础上继续翻1024倍,只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首 MP3音乐,或者是671部《红楼梦》小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。。。
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。
EB还不是最大的。目前全人类的数据量,是ZB级。2011年,全球被创建和复制的数据总量是1.8ZB。而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。
大数据的特点和价值
大数据的特点,概括为4个V。
Volume(海量化)前面所说的庞大数据体量。
Variety(多样化)数据的形式是多种多样的,包括数字(价格、交易、数据、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息等等,都是数据。
Velocity(时效性)从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。
Value(价值密度)大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?
2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。如今,大数据应用开始走进我们的生活,影响我们的衣食住行。
归纳来说,大数据的价值主要来自于两个方面:
帮助了解用户。大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。
典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统用户调研。
除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
帮助了解自己。除了帮助了解用户之外,大数据还能帮助了解自己。
企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。
总而言之,“知己知彼,百战百胜”。大数据,就是为我们决策服务的。