想来有趣,在网上购物、订外卖、手机支付已成为很多人日常生活的一部分,可穿戴设备、智能家居设备等风头正旺的现在,我们每天的吃饭、睡觉、工作,甚至娱乐产生的“数据”都会通过某种手段被保留和集中起来。根据IBM调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等,相当于从地球到月球的距离。
将这样量级的数据称为“大数据”可一点也不为过。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”今天我们就来说说大数据。
一、什么是大数据
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的分析方法;而研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
我们这里主要采用第三种定义,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策的目的资讯。
湖畔大学曾鸣老师曾列举的的大数据与传统的数据最大的差别是:在线、实时与全貌。
①在线:首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。
②实时:大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。
③全貌:大数据还有一个最大的特征,它不再是样本思维,它是一个群体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。
二、大数据对企业有什么好处
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。据统计,企业内部的经营交易信息、互联网中的商品物流信息、人与人交互信息、位置信息等数据,每2~3年时间就会成倍增长。
而信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。这些数据蕴含着巨大的商业价值,但是企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。
对于一般的企业而言,大数据的作用主要表现在两个方面:
1.帮助企业了解用户
大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。
大数据也可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
2.帮助企业了解自己
除了帮助了解用户之外,大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。
三、大数据有什么特点
大数据的特点有4个层面:
1.Volume(海量化):数据体量巨大。从TB级别,跃升到PB级别;
2.Variety(多样化):数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海报等),等等,都是数据;
3.Velocity(时效性):处理速度快,1秒定律,从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化;
4.Value(价值密度):大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报
四、大数据的开发
1.数据采集
数据采集有线上和线下两种方式,线上一般通过爬虫,通过抓取或者通过已有应用系统的采集。
在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用Python或者Node.js制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据。如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作,同时目标数据源可以更方便的管理。
数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将它们规整、有方案地整理进我们的大数据流程中也是必不可缺的一环。
2.数据汇聚
数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产,到了一定的量就是一笔固定资产。
数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?数据是否可用?
这些需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等,还有如何从原始数据中导入数据等。