大数据的定义与含义

发表时间: 2022-12-13 11:44

大数据(Big data,BD)或称“巨量数据”,是指规模巨大的数据集。该数据集无法使用传统的、常用的软件技术和工具在一定时间内完成数据获取、管理和处理。通常认为,大数据具有5v的特点。

l 数据规模大(Volume):大数据的数据集的容量可达到数百TB,甚至PB、EB级别的规模。传统的关系型数据库管理体系难以应付如此巨大的数据量。

l 数据多样性(Variety):大数据包括结构化、半结构化、非结构化等各种数据格式,其中的数据更是表现为数值、文本、图形、图像、流媒体等多种形态。

l 数据处理时效性(Velocity):很多大数据应用需要进行及时处理,满足一定的响应性能要求。

l 结果准确性(Veracity):对大数据处理的结果要保证一定的准确性,不能因为大规模数据处理的时效性二牺牲处理结果的准确性。

l 深度价值(Value):大数据中蕴含很多深度价值,需要对大数据进行深入的分析,挖掘出其中包含的巨大价值。

我国《促进大数据发展行动纲要》开宗明义地指出,“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。这个定义反映了当前“大数据”的现实形态,即经过多年的发展,“大数据”一词已经超出了基于数据规模的定义,它代表着信息技术发展到了一个新的时代(即大数据时代),代表着巨量数据处理所需要的新的技术和方法(即大数据技术),也代表着所带来的新服务和新价值(即大数据服务)。

大数据技术的根本任务在于对社会生产生活中所产生的各种数据进行科学筛选,并从中快速获取具有研究价值的数据信息,实现为产业发展赋能。在大数据技术中,数据的采集、预处理、管理、储存、分析以及应用等都是其核心技术。而大数据技术应用的目标并不仅仅在于对巨量数据信息的处理,而是在巨量数据资源中发现有价值的信息,并将其应用到特定领域。当前,大数据处理技术已经在各行各业中得到广泛应用。

随着大数据技术体系的不断成熟,技术构成从面向巨量数据的存储、处理、分析等核心任务,延展到了数据管理、流通、安全等配套技术,形成了层次分明、体系完备的大数据技术框架。主要包括数据维护技术体系、数据管理技术体系、数据分析技术体系以及数据安全技术体系。

在数据维护技术方面,针对数据量大、数据源异构多样、数据时效性高等特征,巨量异构数据存储与计算的技术得到了发展,出现了分布式存储及分布式计算框架。其中,面向巨量结构化及非结构化数据批处理,出现了基于Hadoop、Hive和Spark生态体系的分布式批处理计算框架。面向时效性数据的实时计算反馈,出现了Storm、Flink及SparkStreaming等分布式流处理计算框架。

在数据管理技术方面,由于大数据产生链条长、复杂度高,普遍缺乏有效管理,导致数据获取难、准确性低、实时性差、标准混乱等问题,后续的数据使用和分析存在众多障碍。针对这种情况,用于数据整合的数据集成技术以及用于实现数据资产管理功能的数据管理技术得到了发展。

数据分析应用技术方面,针对数据分析、数据价值挖掘,产生了包括以BI工具为代表的统计分析与可视化展现技术;以传统机器学习和基于深度神经网络的深度学习为基础的数据挖掘分析建模技术,支撑数据价值的挖掘与应用。

数据安全技术方面。随着数据价值得到挖掘,数据安全问题也愈发凸显,数据泄露、数据丢失、数据滥用等安全事件层出不穷,如何应对大数据时代下的数据安全威胁,在安全合规的前提下使用及共享数据成为了备受瞩目的问题。访问控制、身份识别、数据加密、数据脱敏、隐私计算等数据保护技术在大数据领域得到广泛的应用。

从数据处理的实时性角度出发,大数据处理技术可以分为批处理和流处理两大类。

数据批处理通常处理T+1数据,用来支撑以“看”为主的数据应用。适用于对历史数据进行分析和计算,数据处理耗时与数据量呈正相关。数据批处理平台通常包括Hadoop、Hive、数据仓库、ETL、维度建模、数据公共层等。

数据流式处理通常处理实时数据,数据的即时处理能力可以达到秒级甚至毫秒级延迟,可以支撑实时化、在线化的数据分析与展现类应用,非常适合有近实时处理需求的任务。数据流式处理平台的支撑技术主要包含4个方面:实时数据采集(如Flume)、消息中间件(如Kafka)、流计算框架(如Storm、Spark、Flinlk和Beam等)以及实时数据存储(如列族存储的HBase)。目前主流的实时数据平台也都基于这4个方面相关的技术搭建的。