大数据的演进历程

发表时间: 2024-01-30 22:01

1 大数据应用的发展

正是由于大数据的广泛存在,才使得大数据问题的解决很具挑战性。而它的广泛应用,则促使越来越多的人开始关注和研究大数据问题。以下列举了若干个大数据发展中具有代表性的大事件。

2005年,Hadoop项目诞生。Hadoop原本来自于谷歌一款名为MapReduce的编程模型包,最初只与网页索引有关,被Apache软件基金会引入并成为分布式系统基础架构。Hadoop可以帮助用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储,从而以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。这份白皮书指出大数据真正重要的是新用途和新见解,而非数据本身,这在一定程度上改变了人们固有的思维方式。计算社区联盟是最早提出大数据概念的机构。

2009年中,美国政府通过启动Data.gov网站的方式向公众提供各种各样的政府数据。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪信息,包括航班信息、产品召回信息和特定区域内失业率信息等,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

2010年2月,肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。”科学家和计算机工程师已经为这个现象创造了一个新词汇:“大数据”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。

2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利”。

2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,这是专业机构第一次全方位地介绍和展望大数据。报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。报告还提到,“大数据”源于数据生产和收集能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。

2011年12月,工信部发布物联网十二五规划,提出将信息处理技术作为4项关键技术创新工程之一,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。

2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府将数据定义成“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来,并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。

2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。

2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求。例如,通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐私和退出权力提出需求;公共部门出于改善服务,提升效益的目的,提供了诸如统计数据、设备信息、健康指标、及税务和消费信息等,并对隐私和退出权力提出需求。白皮书还指出,人们如今可以使用的丰富的数据资源,包括旧数据和新数据,来对社会人口进行前所未有的实时分析。

2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。

2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。

2016年3月,我国出台的“十三五规划纲要”指出实施国家大数据战略,把大数据作为基础性战略资源,全面促进大数据发展,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。全面推进重点领域大数据高效采集、有效整合,深化政府数据和社会数据关联分析、融合利用,提高宏观调控、市场监管、社会治理和公共服务等方面的精准性和有效性。加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私保护等领域关键技术攻关。

2018年12月,我国召开了“全国工业和信息化工作会议”。会议上提出,将大数据与云计算、人工智能等前沿创新技术深度融合。大数据、云计算、人工智能等前沿技术的产生和发展均来自社会生产方式的进步和信息技术产业的发展,而前沿技术的彼此融合将能实现超大规模计算、智能化自动化和海量数据的分析,在短时间内完成复杂度较高、精密度较高的信息处理。

大数据是一场革命,将改变我们的生活、工作和思维方式。庞大的新数据来源所带来的量化转变已经引起了学术界、企业界和政界的高度重视。

2 大数据技术的发展

大数据技术是一种新一代技术和构架,它以较低的成本和快速的采集、处理、分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为七大方向:

1)在大数据采集与预处理方向。这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。

2)在与管理方向。这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库相关技术的发展正在有效地解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。

3)大数据硬软件架构方向。大数据计算的一个核心要义是软硬两手抓,从具体应用出发,仔细选择软硬件架构实现,并且在运行过程中持续不断地协同优化。在当下的大数据应用中,软硬件协同优化的最成功、最普及的范例是基于神经网络的深度学习系统。各个业内著名互联网公司纷纷构建了大规模的机群,专用于针对视觉和语音的深度学习。而后在系统运营过程中纷纷进行软硬件协同优化提升学习系统的效率。英特尔公司资助参与了GraphLab和Petuum的开源系统。

4)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。

5)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等。

6)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多公司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品中,各种可能相关的商品也将会不断出现。可视化工具Tabealu的成功上市反映了大数据可视化的需求。

7)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的时候,黑客很可能在向我们攻击,收集有用的信息。因此,大数据的安全一直是企业和学术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护和加密保护等技术正在最大程度的保护数据安全。

(大数据知识系列由樊重俊教授团队编写,每篇并无严格的前后关系。转发本文请标明出处)