大数据到底是什么?
要真正理解大数据:大数据是指包含更多种类的数据,这些数据的数量不断增加,速度也越来越快。
简单地说,大数据是更大、更复杂的数据集,尤其是来自新数据源的数据。这些数据集非常庞大,传统的数据处理软件根本无法管理他们。但是这些海量的数据可以用来解决您以前无法解决的业务问题。
数据量很重要。使用大数据,您将不得不处理大量低密度、非结构化的数据。这些数据可以是未知值的数据,如Twitter数据提要、网页或移动应用程序上的点击流,或支持传感器的设备。对于一些组织来说,这可能是数万兆字节的数据。对于其他的,可能是几百pb。
接收数据并对其进行操作的快速速率。通常,直接进入内存的数据流的速度要比写入磁盘的速度快。一些基于互联网的智能产品可以实时或接近实时地运行,需要实时的评估和行动。
传统的数据类型是结构化的,并且适合于关系数据库。随着大数据的兴起,数据以新的非结构化数据类型出现。非结构化和半结构化数据类型(如文本、音频和视频)需要额外的预处理来获得意义并支持元数据。
数据具有内在价值。但在那个价值被发现之前,它是没有用的。同样重要的是:你的数据有多真实——你能在多大程度上依赖它?
今天,大数据已经成为资本。想想世界上一些最大的科技公司。他们提供的大部分价值来自他们的数据,他们不断地分析这些数据以提高生产效率并开发新产品。
最近的技术突破大大降低了数据存储和计算的成本,使存储更多数据比以往任何时候都更容易、更便宜。随着大数据量的增加,成本更低,更容易获取,你可以做出更准确、更精确的商业决策。
发现大数据的价值不仅仅是分析它(这是另一个好处)。这是一个完整的发现过程,需要有洞察力的分析师、业务用户和主管提出正确的问题、识别模式、做出明智的假设和预测行为。
尽管大数据的概念本身相对较新,但大数据集的起源可以追溯到20世纪60年代和70年代,当时数据世界刚刚开始出现第一批数据中心和关系数据库。
开源框架的发展,对大数据的增长至关重要,因为它们使大数据更容易处理,存储成本更低。从那以后的几年里,大数据的数量飞速增长。用户仍然在生成大量的数据——但不仅仅是人在做这些。
随着物联网的出现,更多的对象和设备连接到互联网,收集客户使用模式和产品性能的数据。机器学习的出现产生了更多的数据。
虽然大数据已经走了很远,但它的实用性才刚刚开始。云计算进一步扩展了大数据的可能性。云提供了真正弹性的可伸缩性,开发人员可以简单地启动特定集群来测试数据子集。
大数据和数据分析的好处:
大数据可以让你获得更完整的答案,因为你有更多的信息,更完整的答案意味着对数据更有信心——这意味着处理问题的方法完全不同,发现更多的大数据解决方案尝试探索和可视化您的数据免费。
大数据可以帮助你处理一系列的商业活动,从客户体验到分析。