大数据入门:3分钟掌握基础知识,轻松易懂

发表时间: 2019-08-14 11:36

云计算、大数据和人工智能三个词现在特别的火,在网络上随处可见。往往提及其中一个词,就会顺带提到另外两个词,感觉三者存在一定关系,但很多人又讲不清。

实际上,云计算和大数据就像硬币的正反面,它们是相辅相成的。正因为有大数据的存在,所以需要匹配相应的处理技术,云计算应运而生。人工智能则是在两者基础上能进一步发展的科学技术。云计算、大数据、人工智能成为现代商业的基础。

什么是大数据?

最早提出“大数据”一词的是全球知名咨询公司麦肯锡。麦肯锡给出的大数据定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有5V特点。5V特点:Volume(数据量大)、Velocity(处理速度快)、Variety(类型多样)、Value(价值密度)、Veracity(真实性)。

下面详解介绍一下大数据的5V特点。

数据量大(Volume)

大数据第一个特征就是“大”。起初,一个MP3可能只要256M就能满足听歌需求,随着储存技术的发展,数据存储慢慢的从MB级别到了GB、TB级别,大数据时代,数据储存起始计量至少是1个PB(1024TB),甚至达到EB(1024PB)、ZB(1024EB)级别。

类型多样(Variety)

大数据另一个特征就是数据来源广泛,所有的数据都会被记录储存,平台得到的不再是随机样本,而是全体数据。这些数据会以日志数据形式被处理分析。比如现在的淘宝、今日头条、抖音等就是通过分析用户数据去智能推荐用户喜爱的内容。

处理速度快(Velocity)

海量的数据如果处理的速度太慢将毫无意义。因此,大数据对处理速度有着严格要求,可以实现对海量数据实时分析,真正做到随时产生数据,随时进行处理。面对日益增加的数据量,平台的处理速度将面临新的挑战。未来谁的处理速度更快,谁将更有优势。

价值密度(Value)

因为在收集数据方面是来者不拒,大数据另一个特征是,除了收集有效价值之外,更多的是收集无意义的数据。平台通过对这些数据分析,迅速挖掘有效价值,从而提高管理效率、实现新的价值。

真实性(Veracity)

大数据最后一项特征是真实。通过互联网上用户真实的操作轨迹,可以得到真实的数据,从而对现实进行反映和预测。但随着研究发现,网络到处充斥着虚假数据。比如刷单、刷粉的行为,虽然都是真实的操作轨迹,但反映的并不是真实的情况。因此近年很多研究者都把这一大数据特征删掉。

在大数据智能时代,大数据即带来了机遇也带来了挑战。在未来几年,大数据应用将从膨胀性发展转为理性发展,前景依然非常乐观。围绕大数据,大量的企业将实现数字化转型转型,从而改变各行各业的业态。