大数据这个词已经快被喊得烂大街了。很多人认为大数据就是数据量体量非常大,比如说达到TB、PB甚至更高,就可以被称作是大数据了。但其实并不是这样,大数据与其说是数据的“size”,不如说是数据的广度。
在2001年的时候,Meta Group的一位分析师首次提出了大数据发展的三个要素,也就是3V。当然,现在这个3V已经发展成了4V、5V、6V,但我仍然认为这3V是大数据的核心。那这个3V到底是什么呢?
第一个V就是volume,那就是大家所说的这个数据的量。那第二个V是velocity,这个就是速率的意思,也就是说产生数据的速度越来越快。那第三个V就是variety,也就是说数据的广度。就比如说在多年以前,咱们所处理的大部分数据可能都是结构性数据,而人类在日常生活中所产生的大部分数据都属于非结构性数据。
什么意思呢?举个简单的例子,就比如说一个人的身份信息:你的身份证号码、你的出生年月日、你的家庭地址,这些全部都是结构性信息。而现在呢,我们对于一个人的身份信息可以捕捉和分析的东西就很多了,比如说你的声音、你的长相、你在社交媒体上所发的每一张照片、每一段视频、你所看的视频下面的每一个留言、评论,以及你放在购物车里面的每一件商品,这些都属于非结构性数据。
而正是这些非结构性数据,塑造了一个个鲜活的个体。所以说大数据的这三个特征,就可以总结为:更多、更快、更广。
而基于数据给我们生活所带来的改变也是非常多。登录你的抖音账户,点开你的主页,推荐的视频基本上都是你会感兴趣的。而这些视频的推荐,都是根据你过往所看过的每一个影片、所点过的每一个赞、在哪一支影片上停留了几分几秒、在哪个地方暂停了、观看了百分之几、花了多长的时间、写了多长的评论、是好评还是负评,它就是这样记录你的每一个动作,甚至是无心的动作。
然后你就会惊奇地发现,你在电脑上看完了所有关于世界奇妙物语系列的电影解说,然后有一天它推荐给你的黑镜系列的电影解说,从此你就再一次入坑,一发不可收拾。这就是你内心最真实的喜好。
美国的国家科学院学报曾经发表过一篇文章,它说你只要在微博上曾经给十个人或者十篇帖子点过赞,那么微博这家公司对你的性格心理的判断,可能会比你的同事更加准确。如果你曾经点过了70个赞,那么它可能比你的闺蜜或者好友更加了解你。如果你点了150个赞的话,那你的父母兄弟姐妹都得甘拜下风。但是如果有300个赞的话,也许你的配偶都没有这款软件更加了解你的真实想法。
那么,如果要让算法比我自己更加了解我自己,就需要多少个赞了呢?那这个过程又要多久呢?回到你的视频平台主页,平台给你推荐了这么多视频,而一般情况下,你想看的视频都会包含在前20个之内。那么如果有一天,你想看的视频会包含在前20个之内、前5个之内呢?如果有一天,包含在前3个之内呢?如果有一天,平台只给你推荐了一个视频,而这个视频就是你想看的,你的社交媒体可能会比你更加了解你自己。而这一天也不会很远。
扩张到整个社会生活的话,滴滴打车记录了你每天在什么时间、从哪里去到了哪里,而领英记录了你所有的职场人脉。探探、陌陌这些交友软件记录了你所有的交友喜好,支付宝、蚂蚁金服记录了你所有的购买能力,你的手机帮通信公司记录下来你每一天在哪个时间点给谁进行了通话、发了哪条短信、通话记录是多长,甚至可以知道你在地铁上有没有打开抖音、快手。它会追踪你每一天的所有行程,即使是你手机关机了,它也依然在追踪你。
我们可以预想在不久的将来,你想去银行贷款,不用再拿着所有的资料、工资单、负债记录了,银行可以调查你的出行数据、度假数据,甚至你同事的财产数据。甚至当你一走进银行,就可以通过人脸识别系统匹配你和所有的信息资料,迅速的生成一份报告来告诉你,你可以贷走多少钱。而这一切目前没有实现,并不是因为这是一个无法攻克的技术难题,而是因为各行各业数据还没有整合。如果有一天,所有的公司、所有的行业都决定联手了,那么全民裸奔的时代将在一瞬间到来。那这是一件好事吗?
在2018年3月26号的中国发展高层论坛上,百度CEO李彦宏说中国人对隐私的问题更加开放,也没有那么敏感,如果他们可以用隐私来换取便利、安全或者效率,在很多情况下他们都是愿意的。这话一出是一石激起千层了,很多人声讨说这是中国科技巨头对普通大众权益的熟知无睹。但实际上百度CEO他实际上说出来一个让人非常尴尬的现实,只是他把客观现实和主观意愿给搞混了。中国人不是不在乎自己的隐私,而是没了选择。你想要下载一款软件,他会要你的手机号码,如果你不填手机号码这个就用不了,而你输了手机号码就要同意注册协议,那你同意了注册协议就等于说同意这些公司给你推送各种各样的广告。那公司说了,你的个人信息交易记录还有各种的使用购买记录是不会与第三方共享的,但是假如说信息不小心被员工泄露的话,员工的个人行为与公司无关。
举个很简单的例子吧,在一个犯罪率极高的地区,每天都会有针对女性的暴力事件发生,但是你你能总结说是因为这个地区的女性缺乏对自身的保护意识,甚至享受这个被侵害的过程吗?那这是对受害者主观意识的极大无视。
相信有很多人已经注意到了,中国的监控摄像头正在以惊人的速度每年增加,在超市里、学校里、地铁站、马路、商店,每一个人的一举手一投足都被摄像头默默地拍了下来。从2010年开始,中国的摄像头速度正在以每年20%的速度增长,截止到2018年的时候,中国已经有1.76亿个摄像头。这是个什么概念,也就是说每7到8个人就会有一个摄像头。目前全中国已经成为了世界上最大的监控市场,在未来用于视频人脸识别的这个服务器有四分之三都可能会被中国买走。
这些摄像头固然可以防止犯罪,给老百姓带来一些心理上的安全,但这一双双眼睛在国际上也是饱受争议。马化腾曾经在一次采访中说,每一天有超过10亿张照片上传到腾讯,那节假日呢,照片就更多,可以达到二三十亿张。而这些照片中大部分都是中国人的脸,而且腾讯拥有几乎每个中国人过去十几年来容貌的变化数据,他们甚至可以对这些数据进行建模分析,预测每一个中国人年老时候的样子。
2017年的时候,BBC有一位记者就得知了中国这个天网系统非常的厉害,他不信这个邪,就来贵阳去挑战中国这个天网系统。他首先要将自己的照片交给了警方,而且要求警方要把自己的这个照片flag成嫌疑犯,试图要测试这个天网系统需要用多长时间识别并且找到。结果整个过程花了不到七分钟。贵阳市的天网系统可以利用六万路各类视频镜头实现人脸识别,而这些摄像头不仅能够识别面部系统,还能够识别车牌号,将人脸和车牌号进行对应,将人脸和身份证号进行对应,甚至还可以追踪过去一段时间你开了什么车、去过哪些地方。当这些传感器和摄像头的布置达到一定密度的时候,就可以得知你和谁在一起,从而实现人际关系网的匹配。
目前中国这个天网系统还在进一步完善当中,官方的说法是最终他们的目的是要达到一个不仅能够打击犯罪,甚至可以预防和预测犯罪的目的。只要这个摄像头所捕捉到的视频当中有人脸是和他们犯罪嫌疑的人脸相吻合,那这个系统就会向警方提出报警。
自古以来,很多不同的文化和民族都相信神的存在,我们会每年去祭祀那些比人类还要强大、拥有智慧的那些神,遵从神的旨意,趋善避恶,虔诚祈祷。可是慢慢随着时代的进步,人类慢慢意识到我们的主权应该掌握在我们自己的手中,我们开始倾听自己的声音,开始做我们自己想做的事,通过自己的努力试图改变一切的现状。我们吃我们想吃的东西,做我们想做的工作,跟我们喜欢的人在一起,和秩序相投的人共度余生,因为什么呢?因为我们觉得我就是最了解我自己的人。
而事实真的是这样的吗?如果你和我一样,是一个每一天和代码打交道的人,可能你已经意识到渐渐的你身边一些同事甚至你自己已经开始使用一款叫做Type9的软件。那这个软件呢,它支持各种不同的编程语言,乍看之下很像程序员版的搜狗输入法,它会整合你和其他千千万万码农的代码习惯,预测出来你想要打的代码。那我在这里做一个大胆的假设,会不会有一天有这样一款软件,它不仅可以预测你想要打的代码,甚至还可以通过一段时间的学习来汲取你所有的代码经验以及你脑海中的建模技巧。那如果这一天来临的话,人工智能就不需要给它写算法的码农了,那么人类的未来将何去何从呢?