大数据的发展历程

发表时间: 2024-01-05 15:33

大数据的概念已经存在很长时间了。人类最早将大量数据存储在一个中心位置的例子之一是埃及的亚历山大大图书馆。该图书馆建于公元前285-246年之间,在公元270 - 275年帕尔米拉人入侵期间被毁。快进到21世纪,我们收集、管理和分析数据的速度比以往任何时候都要快,更复杂的数据也不在话下。


什么是大数据?

大数据是结构化、半结构化和非结构化数据的大集合。与单独的结构化数据相比,它的数据量大得多,速度快得多,文件格式多种多样,来源也多种多样。“大数据”一词自1990年代末就出现了,当时它是由美国宇航局的研究人员迈克尔·考克斯和大卫·埃尔斯沃思在1997年发表的论文中正式提出的。他们用这个术语来描述处理和可视化来自超级计算机的大量数据的挑战。

2001年,数据和分析专家Doug Laney发表了《3D数据管理:控制数据量、速度和多样性》一文中,建立了今天仍在使用的描述大数据的三个主要组成部分:体积(数据的大小)、速度(数据增长的速度)和多样性(数据类型和数据来源的数量)。


大数据的简史

数据和大数据的出现是一段漫长而传奇的历史。在第二次世界大战期间,有许多技术上的进步,这些进步主要是用作军事领域。随着时间的推移,这些进步将对商业部门有用,并最终对公众有用,个人计算将成为日常消费者的可行选择。

1. 1940年至1989年:数据仓库和个人台式电脑

电子存储的起源可以追溯到世界上第一台可编程计算机——电子数字积分器和计算机(ENIAC)的发展。它是由美国军队在二战期间设计的,用于解决数值问题,例如计算火炮射击的范围。然后,在20世纪60年代初,国际商业机器公司(IBM)发布了第一台被称为TRADIC的晶体管计算机,它帮助数据中心走出了军事领域,服务于商业领域。

第一台以图形用户界面(GUI)为特色的个人台式电脑是苹果电脑公司于1983年发布的Lisa。在1980年,苹果、微软和IBM等公司发布了各种各样的个人台式电脑,这导致人们购买自己的个人电脑,并有史以来第一次能够在家里使用它们。这样,大众终于可以使用电子存储了。

2. 1989年到1999年——万维网的出现

1989年至1993年间,英国计算机科学家Sir Tim Berners Lee将创造出为我们现在所知的万维网提供动力所需的基本技术。这些网络技术是超文本标记语言(HTML)、统一资源标识符(URI)和超文本传输协议(HTTP)。然后在1993年4月,决定让这些网络技术的底层代码永远免费。

其结果是,有能力支付互联网服务费用的个人、企业和组织可以上网并与其他联网的计算机共享数据。随着越来越多的设备接入互联网,这导致了人们可以在任何时候访问和共享数据的信息量的巨大爆炸。

3. 2000年到2010年——控制数据量、社交媒体和云计算

在21世纪初,亚马逊、eBay和谷歌等公司帮助产生了大量的网络流量,以及结构化和非结构化数据的组合。2002年,亚马逊还推出了AWS(亚马逊网络服务)的测试版,向所有开发人员开放了亚马逊平台。到2004年,为它开发了100多个应用程序。

AWS于2006年重新推出,提供了广泛的云基础设施服务,包括简单存储服务(S3)和弹性计算云(EC2)。AWS的公开推出吸引了大量客户,比如Dropbox、Netflix和Reddit,它们都渴望成为云计算的一部分,因此它们都希望在2010年之前与AWS合作。

MySpace、Facebook和Twitter等社交媒体平台也导致了非结构化数据传播的增加。这将包括共享图像和音频文件、gif动画、视频、状态帖子和消息。

随着大量非结构化数据的加速生成,这些平台需要新的方法来收集、组织和理解这些数据。这导致了Hadoop的诞生,这是一个专门用于管理大数据集的开源框架,并采用了NoSQL数据库查询,这使得管理非结构化数据成为可能——数据不符合关系数据库模型。有了这些新技术,公司现在可以收集大量不同的数据,然后提取有意义的见解,以做出更明智的决策。

4. 2010年代至今——优化技术,移动设备和物联网

在2010年代,大数据面临的最大挑战是移动设备和物联网(IoT)的出现。突然之间,全世界数以百万计的人都可以手持小型的联网设备四处走动,可以访问网络,与其他联网设备进行无线通信,并将数据上传到云端。根据Domo发布的2017年数据报告,我们每天产生2.5万亿字节的数据。

移动设备和物联网设备的兴起也导致了新类型的数据被收集和分析。一些例子包括:

1. 传感器数据(通过支持互联网的传感器收集的数据,提供对机器内部工作的有价值的实时洞察)

2. 社交数据(来自Facebook和Twitter等平台的公开社交媒体数据)

3. 事务数据(来自在线网络商店的数据,包括收据、存储记录和重复购买)

4. 健康相关数据(心率监测器、患者记录、病史)

有了这些信息,公司现在可以比以往任何时候都更深入地挖掘以前未被探索的细节,例如客户购买行为、机械维修频率和预期寿命。


大数据的未来

虽然大数据的未来还不完全清楚,但目前的趋势和预测可以帮助我们了解如何管理大数据。到目前为止,最突出的大数据技术是AI(人工智能)和自动化,两者都简化了数据库管理和大数据分析的过程,使原始数据更容易转化为对关键决策者有意义的见解。

无论公司是想收集消费者信息还是商业分析,大数据分析工具都可以帮助这些公司跟上快速增长的数据生成,将无意义的数据转化为强大的信息和知识,在决策过程中提供重要帮助,并增加预测未来结果的几率。

大数据的另一个巨大障碍是道德问题。多年来,政府和国家立法已经规范了公司和个人如何进行数据收集,并使用他们检索到的数据。GDPR等法规清楚地表明,客户隐私是重中之重,因此,如果公司和个人想要合法运营并避免巨额罚款,就必须认真对待数据隐私。通过使用最新的工具来收集和分析数据,这些工具是专门为遵守这些法规而设计的,这可以帮助公司保持安全并保护其敏感的客户和员工数据。


本文转载自 大数据的演变- 雪兽软件

更多精彩推荐请访问 雪兽软件