大数据(三)
常见AI术语浅谈(3)
接上期。
(二)、大数据存储与管理技术:
为了有效应对复杂多样性的大数据处理需求,需要针对的大数据应用特征,从多角度、多层次对大数据进行存储和管理。
1,巨量大数据:
大数据的一个显著特征就是数据量巨大,计算量单位至少是PB。
(1),那么数据量有多大?
从人们日常使用流量,比较数据量的大小:
平时用的移动硬盘容量可达到几T,常说的T是TB。1TB(万亿字节太字节)等于1024GB。1GB(千兆)等于1024 MB。
日常手机上网使用流量,如果不经常看视频,每月50GB足矣。
(2),PB:
1PB(千万亿字节拍字节)=1024TB。
(3),EB和ZB:
数据量达到单位EB和ZB是多大呢?
1EB(百亿亿字节艾字节)= 1024 PB。
1ZB(十万亿亿字节泽字节)=1024 EB。
这里讲的都是“1”为单位,如果是上千EB,可见数量之大,存储之难。
(4),存储数量单位后面还有:
1YB (亿亿亿字节尧字节)=1024ZB。
1BB (千亿亿亿字节)=1024YB。
2,来源多样化:
大数据来源极其广泛和数据类型多种多样。主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务……,公共机构……。数据形态结构不同,形式不一……。
3,存储:
存储庞大的数据,传统关系型数据库已经无法满足数据多样性存储要求,适应大数据存储类型应运而生。
HDFS(高容错性,分布式文件系统架构)直接应用于非结构化文件存储的分布式存储系统。HDFS是Hadoop其中一个组件。
NoSQL(所有不是关系型数据库的统称)数据库,可以存储半结构化和非结构化数据。
4,大数据存储管理技术:
大数据存储与管理就是要用这些存储技术把采集到的数据存储起来,并进行管理和调用。
(1),一般的大数据存储层,关系型数据库、NoSQL数据库、分布式存储系统三种存储方式同时存在。根据实际业务应用情况选择不同的存储模式。为了提高业务的存储和读取便捷性,基于Hadoop(分布式存储和计算框架)的技术扩展和封装。
存储层可封装成为统一访问的数据服务DaaS里,实现业务应用和存储基础设施的彻底解耦。
DaaS(数据即服务)数据管理方法,将数据转化为实际价值。增加数据可访问性,让数据发挥其应有的潜力,将数据变现,实现数据的价值。
(2),为了便于多维分析和多角度展示数据,按特定模式进行存储所建立起来的关系型数据库,属于数据仓库范畴。
数据仓库是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载……按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。
(3),通过标准化的流程技术和工具对数据进行处理,可以保证一个预先定义好的数据高质量的分析结果。
大数据的管理,还涉及到数据安全加密技术、云端备份……技术。
(三)、大数据分析和挖掘技术?
大数据分析和挖掘技术就是对规模巨大的数据进行分析和不同挖掘算法处理、归类、提取……主要的技术有:
(1),可视化分析(Analytic Visualizations),数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让用户听到结果。
(2),数据挖掘算法(Data Mining Algorithms),数据挖掘将大数据集群、分割……,算法软件深入数据内部,挖掘价值。
(3),预测性分析能力(Predictive Analytic Capabilities),用户在可视化分析、数据挖掘基础上,通过预测性分析,做出一些预测性的判断。
(4),语义引擎(Semantic Engines),如何在非结构化数据的多样性,进行数据分析,需要语义引擎等系列的工具去解析,提取,分析数据。
语义引擎被设计成能够从众多的文档中,智能提取用户需要的信息。
大数据分析和挖掘就是从大量的、不完全的、有噪声的、模糊的数据中,进行萃取、提炼和分析,随机提取隐含在其中的、有用的信息和知识的过程。
大数据分析和挖掘涉及的技术很多,将面临模型、大模型、机器学习……问题,在后续中再谈。
待续。
2024年12月31日