大数据这个词依然是很热门的,但它到底是什么以及背后东西有哪些呢。接下来,我会阶段性以学习笔记式来讲解它们。
大数据是大量数据的集合,但随着时间的推移呈指数增长。这是一个如此庞大和复杂的数据,以至于传统的数据管理工具都无法有效地存储或处理它。大数据也是一种数据,但具有巨大的规模。虽然大数据的定义很多,不过大部分定义都包含所谓大数据的“三个 V”的概念:
量大 (Volume): 大数据的“大”首先体现在数据量上。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。
多样 (Variety): 包括多种来源和格式(例如 Web 日志、社交媒体互动、电子商务与在线交易、金融交易,等等)的数据。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库中。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
高速 (Velocity): 大数据的“高速”指高速接收乃至处理数据— 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备 “高速” 特性才能满足这些要求。
以下是大数据的类型:
任何可以以固定格式存储、访问和处理的数据都称为“结构化”数据。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库中。比如数据库中的“员工”表就是典型的结构化数据。
任何形式或结构未知的数据都被归类为非结构化数据。除了规模庞大之外,非结构化数据在处理从中获取价值方面也带来了多重挑战。非结构化数据的一个典型示例是包含简单文本文件、图像、视频等组合的异构数据源。比如我们在搜索引擎查找的东西,如网页、图片、视频等等,都是非结构化的数据。
半结构化数据可以包含两种形式的数据。我们可以将半结构化数据视为一种结构化的形式,但它实际上并没有用例如关系DBMS 中的表定义来定义。半结构化数据的示例是 XML 文件中表示的数据。