掌握大数据:深入理解大数据的定义与应用

发表时间: 2015-09-28 13:10

加入人人都是产品经理【起点学院】产品经理实战训练营,BAT产品总监手把手带你学产品

近几年,大数据这个概念已经被炒的甚嚣尘上。似乎大数据是一个无比高深的话题,碰巧,笔者在大学的研究方向就是和大数据相关的人工智能,而且也有很多朋友是在大型视频网站团购网站等互联网公司从事大数据相关工作,所以在这里就给大家介绍一下大数据的概念。当然,我们不会去解释大数据相关技术(CF协同滤波,MapReduce,DeepLearning等等),毕竟读者们不太可能会去自己编写大数据的程序。我们只从应用角度,给大家讲讲大数据的概念以及应用方式。希望大家看完这一章后,可以知道,在自己的领域,可以怎样用大数据的理念和方法,来提高效率。

大数据是什么?

虽然大数据听着是一个很高科技的词儿,其实它早就渗透到你我的生活中,比如,你每天在网上看视频时,视频网站推荐给你的视频就是基于大数据。当你在淘宝购物时,网页边栏推荐给你的也是基于大数据。要说明白大数据,首先我们要从一个大家都熟悉的简单概念说起,那就是:数据分析。“数据分析”是一个现代词汇,但是利用数据分析的结果来指导行动,却是古往今来一直都有的一个理念。网上有一段子:

林彪带兵打仗的时候,有个特别的习惯,那就是每次战斗结束后,都要用小本子记下所缴获的武器种类、数量等数据,乐此不疲。大家对此都不以为意。

有一天,在又一次遭遇战后,士兵在给他念缴获的武器数量时,他突然叫停,然后兴奋地指出,这次遭遇战很可能遇到的是敌人的指挥部队。原因是,这次缴获的小枪与大枪的比例高于普通的战斗,小车与大车的比例以及军官与士兵的比例也都高于平均,因此他得到了这个结论。

在这个数据的指导下,部队一鼓作气,追击逃脱的部队,成功的把敌人的指挥官抓获。

如果这个故事属实,那么这个可能是笔者知道的最早的基于严谨的数据分析来指导行为的例子。进入现代以后,人们对数据的分析应用就更加频繁。企业在做战略规划的时候要进行数据分析,公司在做营销推广方案时也要做数据分析。那么,“大数据”和前面说的“数据分析”之间有什么关系和区别呢?

从粗犷到细致

我们知道,数据分析需要有几个步骤:采集、统计、分析,而数据的总量直接和采集相关。在互联网兴起之前,人们采集数据的方式无外乎是人为观察和记录,当然,后期也有利用传感器来辅助记录。但是,互联网技术近几年的发展,却使得数据的采集水平记录达到一个史无前例的高度。在互联网时代之前,人们只能统计到一些基础的用户信息:年龄,住址,电话,婚姻状况等。到了互联网时代,我们可以收集到一个用户手机上装有什么应用,喜欢上什么网站,购物记录,在某个页面上停留了多久,鼠标在页面什么位置点击。而移动互联网时代的来临,使得更多动态数据可以被采集,比如用户的 睡眠时间、运动量、位置、在商场内的移动路线、打车次数、心率等等信息。这些数据最终汇聚在一起,形成了一个非常庞大的数据库。

以林彪带兵打仗为例,假设他的小本子有500页,每页上记满1000个字,正反两面都写,那么总的数据量也就约=2M。这个和互联网时代动辄上T上P的数据量比,基本上是小巫见大巫。(1P约=1000T,1T约=1000G,1G约=1000M,一个大型视频网站1秒钟就能产生几百M的用户数据)。这些数据海量数据的集中,就形成了“大数据”的最重要的一个特征:多维度的、细致的、海量的数据。

注:“海量”并不是大数据的必要条件,它更多是因为数据的维度多,粒度细,而导致的数据量的增大。

从统计到预测

得益于先进的机器学习算法,使得我们对大数据的使用,从统计一个数据结果,到利用结果和特性来推断一个人可能进行的行为。

《BigData》一书中提到一个很有意思的例子:一个父亲突然收到一个百货公司发给他的关于婴儿用品的传单,这个父亲非常愤怒,因为他的女儿才只有16岁?但是,过了几天后,他却上门道歉,因为,经过和他女儿细聊,发现他的女儿确实怀孕了。

那么,百货公司是如何预测一个人的行为呢?像上文所说,通过互联网,我们可以采集到大量用户的种种信息,包括固定的属性,和一些已有的行为;比如最近买了什么。经过对采集到的数据分析,发现购买婴儿用品的人有如下特征:年龄范围在14~40、买婴儿用品前几个月购买大量酸味食品,等等等等。那么,得到这个结论后,再来一个有类似特点的顾客,百货公司就可以猜测,她可能在未来一段时期内,对婴儿用品感兴趣。于是便向其发送对应的广告。

再比如,智能推荐广告:视频网站经过统计发现,点击了啤酒广告的人,有如下特点:看体育类战争类视频较多,看韩剧较少。那么很显然,下次再有啤酒广告时,把它们投给这样的用户就更有效一些。

注:上面举的这两个例子,只是为了形象的说明大数据预测是怎样运作的。在实际应用中,大数据分析引擎要分析的属性比这个细致的多,使用到的算法也比这个复杂的多,而且得到的很多结论,往往是没有直观的物理意义的一个组合概率模型。

从慢到快

上述两个特点基本上已经把大数据的形态给刻画了出来,但是,要到实际中应用,还需要再加一个特点:速度够快

数据收集起来之后,要使用的话,就离不开计算。当数据的量级在几个M时,可能一个计算器就能满足统计需求。当数据量达到几个G时,就必须使用一台计算机来计算。而当有几个T几个P的数据摆在你面前时,一台计算机恐怕已经难以胜任,很幸运的是,我们有了云计算的概念。也就是说,将一个计算任务,分配给”云端“的好多台计算机同时进行处理,从而达到对处理时间的苛刻要求。

云计算技术的发展,使得在大尺度上计算海量数据成为可能。如果没有足够快的处理速度,我们收集起来的用户消费数据,算了半年才出一个结果,那估计用户的消费习惯、社会时尚已经是时过境迁。除了处理速度快,还有一个因素也要快,那就是信息采集反馈的速度。比如,用户电话打进来的瞬间,我们是否立刻收集到该用户相关信息,然后给出用户可能的问题预测?产品投放出去后,我们是否可以很快收集到销量信息以及对应的用户数据?这一切,都决定了我们是否可以有效地将大数据的统计结果应用到商业活动中,最终使大数据从理论的圣坛上走下来,产生了实际的商业价值。综上所述,大数据并不是玄乎其玄的东西,它只是在几种现代技术的推动下,将数据分析做到了极致的结果。

大数据的应用场景

大数据诞生以来,在各个领域都有非常多的应用,比如改善航线、预测污染、优化医疗等等。这里,我们把应用方式分成两大类,分别介绍一下。

精准的广告投放

我们知道广告界的一个难题“如何找到对的那一半人”。而大数据正是可以用来更加精准的定位广告的目标用户。广告投放包括第三方广告渠道和自有广告渠道两种:

第三方广告渠道由于是第三方操作的,所以对于广告主来说只能去选择合适的渠道种类。第三方渠道总体上可以分为两大类:互联网广告渠道(视频网站、门户网站、广告联盟等)和非互联网广告渠道(户外广告、楼宇广告、电视广告等)。目前,互联网广告已经在大数据精准投放上走的比较远,比如前面说的视频网站根据用户点播行为,来投放合适的广告类型。所以,在这样的渠道上投放广告时,只需要广告主能和渠道方合作定义好自己的用户群,便可以将广告投放的比较精准。

非互联网广告渠道,因为没有特别有效的用户细分手段(广告只能投放到人群,而非个人),投放形式本身就限制了其精准的效果。对此,未来的一个出路就是,各种路牌广能采集到附近用户的信息,来动态调整广告内容。

比如,每个广告牌都有一个iBeacon设备,会和打开iBeacon连接的手机产生互动,根据手机信息,反查到用户的性别,从而决定显示什么广告。

而对于自有广告渠道来说,我们可以操作的空间就比较大。拿短息渠道为例,很多公司都会通过手机短信,给用户发送最新的促销信息,但是,以往这种信息通常是全量发送,或者是根据一定的可视化的分类(例如,信用卡的消费额度)来分类发送促销信息。而我们有了大数据的武器后,就可以对用户群进行进一步细分,甚至是1对1的发送。比如,信用卡公司可以根据用户的刷卡的频次、场所、购物内容、还款的及时性、消费时段等等来作为分析因素,来预测用户对什么样的商品感兴趣,从而发送相应的商品广告。再比如,化妆品公司,可以根据用户的年龄、工作内容、作息习惯、娱乐场所、季节、婚育状况、衣着习惯、朋友圈话题等等,来预测她可能更关心什么样的皮肤护理问题,从而推荐对应的化妆品门类。通过对多维度、细致的信息分析,使得广告推送更有针对性

个性化的用户服务定制

个性化服务要解决的问题是,不同用户服务内容和定价的个性化。以我们熟知的车险为例,目前的定价方式,只是简单的根据用户的年龄、驾龄、婚姻状况、车价和以往的车险理赔记录等显式的属性来进行区分,而在大数据时代,则可以把这种区分做到极致的个性化。比如,我们可以统计用户的驾驶习惯(驾驶时间,单次驾驶时长)、驾驶环境(常去路线的交通状况、总体事故率、季节天气)、身体状况(生病频率等),来更加针对性的对用户的理赔概率进行估计,从而得到更加合理的投保额度。再比如,对于培训机构来说,可以分析特定属性的用户(年龄、性别、各种成绩等),对特定类型的授课方式或者授课内容的成绩反应,来有针对性的进行课业的搭配,从而使每个用户的成绩达到最大化。同样,医学领域,也可以利用大数据来进行个性化疾病预防和治疗。智能穿戴设备为这一切打下了坚实的基础:

  • 手环,监测你的运动量、心跳变化
  • 智能血压仪,每天监测血压
  • 体重秤,每天体重变化
  • 空气净化器,监测环境的污染情况
  • 上网习惯,检测你的作息时间
  • 订餐记录,检测你的饮食情况

如果以后有了更方便的血液检测手段,每天能获得血液检测记录,那将是更有效的数据

这些数据分散开的话,最多只会影响对人们的生活习惯,比如,体重重了,要少吃多运动。但是一旦数据全都被打通,结合大数据分析技术,就可以预测出每个人的疾病发病概率。对每个人治疗时,也可以在药物和用量上变得更加有针对性。

机遇与挑战

大数据应用在国外已经兴起很长时间,但是在国内,却是刚刚起步阶段。一方面是国内对数据收集的管控比较严,导致数据基础设施没有跟上。而更重要的,还是人们对大数据的理念还没有完全吃透,大部分大数据应用的思想,只为专业的大数据工程师所掌握。而就在我们还没有准备迎接传统互联网大数据的潮流时,近几年,移动互联网有了势如破竹的发展。大部分公司,移动端业务,都已经超过了PC网站,这给大数据带来了新的机遇与挑战:

(随着种种O2O连接技术的发展,使得商家能够更方便的触摸到附近的用户,而因为用户的移动性,需要商家能够在用户经过线下店的短暂时间内作出响应)

如果广大产品设计者,能够充分掌握大数据思想,在设计产品时,打通数据之间的壁垒,将海量数据同服务更加有效的连接起来,相信各个行业都会迎来一片更广阔的天地。

本文由 @石头的假设(微信公众号: deer_hunting ) 原创发布于人人都是产品经理 ,未经许可,禁止转载。