大数据概念深度解析及产业链全景展望

发表时间: 2024-09-20 16:24

前言

数字经济浪潮下,数据已成为当今最为核心的资源之一,数据成为推动企业和社会发展、转型、创新的新型生产要素。

大数据这个词,不管您是不是相关行业的从业者,也都听过无数遍了,但对于大多数人来说,并不能清楚的讲出什么是大数据。今天小兵尝试通过通俗的语言,结合贴近生活的例子,将大数据及相关的概念一次讲清楚。



01 基本概念

1.1 大数据的定义

大数据:是指规模巨大、类型复杂多样,在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据技术:是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。


1.2 大数据的特征




  • 规模巨大(Volume):大数据集合的规模通常超出传统数据库管理系统的处理能力,数据量可能达到TB、PB甚至EB级别。这种规模的数据需要强大的存储和处理能力,以确保数据的高效管理和分析。
  • 类型多样(Variety)大数据的多样性指的是数据的来源和格式多种多样,包括结构化数据、半结构化数据和非结构化数据。传统的数据库和数据管理解决方案缺乏灵活性且功能范围有限,根本无法应对大数据中各种不同且复杂的数据集。
  • 处理速度快(Velocity):大数据的生成、传输和处理的速度非常快,借助大数据技术(如分布式技术、流处理技术等),能极大的增加数据处理速度,确保系统能够实时响应。
  • 价值密度低(Value):大数据的数据量很大,但是价值密度很低。需要通过深度分析和挖掘才能发现和发挥大数据的价值。


1.3 大数据的级别

先通过表格介绍一下数据的级别:


1 KB=1024 B

1个TXT文本文件的大小为几KB

1 MB=1024 KB

1份word文档或1首音乐的大小为几MB

1 GB=1024 MB

一部720P的电影大小约为5GB

1 TB=1024 GB

电脑主流的硬盘为1TB/2TB/4TB

1 PB=1024 TB

约21万部720P的电影

1 EB=1024 PB

约2000个机柜的硬盘存储设备总容量

1 ZB=1024 EB

全球已存储的所有数据总规模约几十ZB


上表中蓝色字体部分,也就是1PB以上规模的,我们通常算作大数据级别。举一些大数据级别的例子:

  • 1辆自动驾驶汽车每天可以产生的数据:60 TB
  • 1个智慧工厂每天可以产出的数据:1 PB
  • 1座智慧城市每天可以产出的数据:2.5 PB
  • 大型强子对撞机实验每年产出的数据:25 PB
  • 谷歌搜索引擎的数据总规模(2021年)为:62 PB
  • 预计到2025年,全球数据量将达到:175 ZB



1.4 大数据的来源


  • 传统企业数据:

包括CRM用户数据、ERP 数据、库存数据、人事数据、财务数据等。


  • 机器和传感器数据:

包括设备日志、智能仪表、工业传感器、环境传感器、摄像头等。


  • 社交数据:

包括用户行为记录、访问记录、UGC内容、反馈数据等。


1.5 大数据的类型

数据按照结构可以分为结构化数据、非结构化数据、半结构化数据



数据按照访问频率可以分为热数据、温数据、冷数据



  • 热数据:约占整体数据的5%,访问频率极高,需要能够快速读写,实时响应业务系统
  • 温数据:约占整体数据的15%,访问频率适中,读写性能要求一般。
  • 冷数据:约占整体数据的80%,可以说大部分数据均属于冷数据,很少被访问,对读写性能要求较低,通常为归档存储的一些历史数据,需要长期进行保存。


1.6 大数据与传统数据的区别

通过表格对传统数据和大数据进行对比:



02 大数据的发展演进


2.1 大数据的发展(国际)

  • 1980年,美国作家阿尔文 ·托夫勒在《第三次浪潮》书中,将“大数据”称为“第三次浪潮的华彩乐章”。
  • 1997年,美国宇航局研究员迈克尔 ·考克斯和大卫 ·埃尔斯沃斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据问题”。
  • 2006年,云计算出现。2007-2008年,社交网络激增,刺激了大数据技术的发展。
  • 2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业关注。
  • 2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别。
  • 2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。


2.2 大数据的发展(国内)


  • 2011年12月,工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。
  • 2014年,“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。
  • 2015年,大数据上升到国家战略层面,我国政府于2015年8月通过了《关于促进大数据发展的行动纲要》。
  • 2015年10月26日至29日,党的十八届五中全会召开,公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略,五中全会开启了大数据建设的新篇章。
  • 2022年,中共中央国务院《关于构建数据基础制度更好发挥数据要素作用的意见》,初步搭建我国数据基础制度20条政策举措,简称“数据二十条”。
  • 2023年10月,国家数据局正式挂牌成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。



2.3 大数据面临的挑战

  • 需求模糊
  • 业务部门需求模糊,企业处于观望状态,担心投入回报。
  • 数据孤岛
  • 政府部门或企业内部数据碎片化,无法相互打通,没有进行关联和整合,无法发挥数据价值。
  • 数据流失
  • 企业保存数据的成本较高,导致大量的有价值历史数据被遗弃,数据资产流失。
  • 数据质量差
  • 企业忽视了大数据的预处理阶段,导致数据处理很不规范,影响了数据的准确率和可用性。
  • 数据安全隐患
  • 安全威胁日益增加,对系统和数据进行保护的难度也随之增加。
  • 隐私保护
  • 隐私权益保护的法律法规越来越严格,企业需要进行合规审计,合理合法地进行数据收集和利用。
  • 人才缺乏
  • 大数据相关人才的欠缺,对大数据技术和市场发展形成了一定阻碍。

2.4 大数据的未来趋势



03 大数据的产业链

3.1 产业架构


来源:艾瑞咨询


  • 基础层:是大数据技术的底层支撑环境,包括计算、存储、网络等基础硬件和数据库、中间件及相关系统等软件。
  • 技术层:包括大数据平台和数据中台,为大数据提供采集、集成、存储、组织、处理、分析、可视化等能力,并以数据服务的方式提供给应用层。
  • 应用层:是面向各行业和场景的应用系统和解决方案。


3.2 大数据产业链



3.3 大数据的应用领域



04 大数据的关键技术


4.1 大数据的技术演进

我们可以把大数据的技术演进理解为数据存储技术与数据计算技术的演进,这两个领域的技术是大数据技术的核心。



  • 1960年代,能够统一管理和共享数据的数据库管理系统(DBMS) 诞生;
  • 1990年代,为满足企业数据分析的诉求,数据仓库诞生;
  • 2000年代,以Hadoop为代表的大数据技术体系诞生,大数据研究框架成型;
  • 2010年代,在云技术的带动下,云上纯托管的存储系统逐步取代HDFS, 开始出现数据湖;·
  • 2020年代,开始逐渐走向“云湖共生”、“湖仓一体”。

4.2 大数据的技术栈