大数据的简单理解,我竟然还不懂,唉

发表时间: 2019-12-05 18:04

问大家一个问题:什么是大数据?

这问题看似简单,实际不简单,也许一千个人会有一千个答案。是的,每个人对大数据都有自己的理解,就像问大家“什么是爱情”一样。

肿么破?

对待这样的难题,笔者一贯的作风是——举例说明!

1.大数据是什么?怎么理解大数据?

笔者把数据比作地球上的水,单个数据就是一滴水,大数据就象地球上的海洋,它足够大,水滴足够多,多到用人工数不清楚,但总的来说,可以通过一定的方式估计海洋中水滴的总量。这么说,你明白大数据了吗?都说我们置身数据的海洋,当你在普吉坐船出海、在芽庄海滩游玩,你可是真的置身海洋,并与之亲密接触。

2.都说大数据有4V的特征,是什么意思?

大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”,同样以海洋为例:

A.海洋中水的量非常大;

B.海水是多样的,太平洋的海水和大西洋的海水是有区别的,不同地方海水里面蕴含的物质、生活的物种都有不同;

C.海洋为全人类带来的好处太多了,人们利用海洋,开发海洋中无穷的价值;

D.速度快,有两个层面的意思,一是海水流动快,二是随着技术的提升,我们对海水的利用也加快了速度(看看快艇、游轮的发展)。

PS:第4个V的比喻有点牵强,但不影响发挥哈,他们说脸皮要厚……

3.对大数据的处理,以海洋石油开采为例:

通过技术手段,在茫茫大海中找到原油含量较高的地点,这是数据挖掘;

原油开采出来进行初加工,这是数据清洗;

然后在炼油厂进行提炼,这是数据分析;

炼出的有汽油、柴油、煤油、机油……最终呈现在我们眼前的,汽车保养时用的银美孚、红壳等,此为数据可视化。

4.Iaas,Paas,Saas?

大海在那里,租给你一艘船,自己组织人手开船去找东西,是为Iaas---基础设施即服务;

不但租给你船,还给你配齐船长、大副、水手,你只需要说往哪开就行,这是Paas---平台即服务;

船租给你,船长、船员配置好,出海寻宝的路线都给你设计好,这是Saas---软件即服务。

5.这几年说大数据,必定说Hadoop,从2014年开始,又多了个Spark,是什么意思呢?

假如你的家族世代打鱼为生,以前你们都是聚集在东海的一个小岛,每天一起驾驶仅有的一艘船出海打鱼,整个家族能打到多少鱼呢?现在你们做了改变,家族的人分散到世界海洋各地,各自开着自己的小船去打鱼,你会发现每天你们整个家族一共打到的鱼数量、种类都要多很多,Hadoop就是这样,它是分布式系统基础架构,解决海量数据的存储及计算。

至于Spark嘛,就是你们家族弄了艘航空母舰,上面很多舰载飞机,还有若干附属舰艇和打鱼装备,每天舰艇、飞机出发携打鱼装备去打鱼,傍晚满载而归,打鱼速度更快了,这就是Spark,一种与Hadoop类似的开源计算集群环境,启用了内存分布数据集,直接从内存读数据,你说快不快?

6.大数据用来做什么?

大数据有很多应用场景,比如精准营销,就是打鱼的人通过多年海上经验,知道哪片海域的海鲜多又能卖好价钱;比如舆情分析,就像海啸预警,通过对海量信息的分析、比对,找出可能产生海啸灾害的区域,好比舆情分析过滤出负面信息……当然,最大的用处还是“预测”,比如通过分析多年的洋流运动,能够分析出你今天在好望角某处抛出的漂流瓶下个月会出现在哪里。什么?你说漂流瓶没有价值?那如果你丢的不是漂流瓶,而是满满一箱钞票呢?



7.大数据企业都提供哪些服务?

第一类,云平台服务商,像亚马逊、阿里云这些,就好比世界上一个个国家,管理各自的海域,你想去其中哪一片搞开发,交管理费给国家,在指定的区域去做;

第二类,数据交易中介,他们自身提供一些数据,更主要的是搭建一个交易平台,撮合数据提供者与数据使用者实现数据交换,促成数据价值的实现,这有点像全球海产品交易市场,或者专门围绕海洋、海产品提供服务的“海里巴巴”;

第三类,大数据解决方案提供商,就是在海洋各地设置钻井平台的,提供原油开采、传输、提炼、销售的一系列服务,目前国内这样的企业很多,还有些以前做系统集成的,也开始改称大数据服务商了。