从零开始掌握数据分析技巧:大数据时代的入门秘籍

发表时间: 2024-06-11 16:03

一、认识大数据

1.大数据的来源

大数据的来源可以分为以下几个部分:

2.埋点

(1)埋点原理:对基于⽤户⾏为的数据平台来说,发⽣在⽤户界⾯的,能获取⽤户信息的触点就是⽤户数据的直接来源,⽽建⽴这些触点的⽅式就是埋点。当这些触点获取到⽤户⾏为、身份数据后,会通过⽹络传输到服务器端进行后续的处理。

(2)埋点分类:

(3)埋点采集维度:

(4)埋点输出文档

要素

说明

事件名称

埋点的事件名称,如优惠卷领取/优惠卷使用

事件定义

⽤户点击领取优惠券,则上报该事件

包含属性

⽤户进⾏了该⾏为,上报事件中需要传输哪些内容,如⽤户ID、时间、应⽤版本、⽹络环境、⼿机型号、IP、内容ID等;如某些属性在所有事件中都需要上传,则可以整理公共属性进⾏管理

属性定义

说明属性的定义,如⽤户地址: ⽤⽤户主动上传的地址,如没有则⽤⽤户IP代替

属性值类型

说明传输属性的类型,字符串、数值、bool

开发名称

对应的开发变量名,可以由开发进⾏补充。如userID、contentID

当前状态

说明当前该变量的状态。如待开发、开发中、验收中、已上线、已下线

上线版本

说明该内容在那个版本进⾏上线。如2.3.1

备注

备注中可记录该属性的变动情况和常⻅值等内容。

3.大数据的特点

(1)Volume:大,数据的采集、计算、存储量非常的庞大;

(2)Variety:多,种类和来源多样化,种类有:结构化、半结构化和非结构化数据等;

(3)Value:低,数据价值密度相对较低,犹如浪里淘金,百炼成钢般才能获取大量信息中的部分有价值的信息;

(4)Velocity:快,数据增长速度快,处理速度也快,获收数据的速度也要快;

(5)Veracity:信,数据的准确性和可信度读,及数据的质量。

二、数据仓库概述

(1)数据仓库(Data Warehouse),简称DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的商业智能能力,指导业务流程改进。

(2)数据仓库的主要特征

-面向主题的:主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。而操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。

-集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

-稳定的

-反映历史变化的

(3)数据仓库与数据库的区别

三、数据仓库的架构

1.分层架构

大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、质量和效率之间取得最佳平衡,主流的方法是分层架构。

数据仓库的数据来源于不同的数据源,并提供多样的数据应用,数据自下层流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

2.数据仓库元数据管理

元数据(MetaData):主要记录数据仓库中的模型定义,各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态,一般会通过元数据质量库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致,保证数据质量。

元数据和数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

构建数据仓库主要的步骤之一就是ETL,这时元数据将要发挥重要的作用,它定义了数据源系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新规则、数据导入历史记录以及装在周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

四、数据治理

数据是企业的核心资产,数据治理能成就企业的未来。它涉及数据质量、数据管理、数据政策、商业过程管理、风险管理等多个领域。

1.脏数据的种类及处理方法

(1)数据缺失:为了不影响分析的准确性,要么不将空值纳入分析范围,要么进行补值。前者会减少分析的样本量,后者需要根据分析的计算逻辑,选择填补方法。

(2)数据重复:去掉重复记录。

(3)数据错误:数据没有严格按照规范记录,只能人工干预,做一张清晰规则表,给出匹配关系。

(4)数据不可用:数据正确,但不可用,这种情况最好从源头解决。

2.数据治理原则

  • 约束输入:必填项,数据类型。
  • 规范输出:统一语义,公司级别的语义字典。

五、大数据常用词汇解释

1.MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想。也就是分而治之 ,分而后和,map分块处理,reduce合并汇总。

2.HDFS: 分布式文件存储系统。

3.内部表:元数据 和 表内数据都由 hive 管理。

4.外部表:元数据 由 hive 管理 表内数据不归hive管理(drop 表示后,hdfs 上的表的数据文件还在)。

5.分区: 以分区字段为依据,把数据分别存储到不同的子文件夹。

6.分桶:以分区字段为依据,字段的值经过hash 运算后的数值对桶数取余,把相应的数据放到余数指定的桶内(数据文件内,000000_0 、000000_1、000000_2等)。

7.hash:是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出在线hash 值计算 Hash在线计算、md5计算、sha1计算、sha256计算、sha512计算 - 1024Tools ( 北京不同的哈希计算方式有不同的值,主要是长度不等, 结果为16进制数0-F组成)。

8.跳出用户: 跳出用户不同产品或公司有不同的口径,这里指的是,进去app 但没注册。

9.ETL:对数据进行 抽取、转换、加载。

10.宽表: 大表(列很多很全的表,如既有用户基本信息又有订单信息)。

11.ODS层:进入ODS的数据是来源于各个操作型数据库以及其他外部数据源,数据进入ODS前必须经过。

12.ETL(数据的统一)过程,如果单一数据源就直接存储元数据就好。

13.DWD层:对核心数据进行判空过滤,对业务数据采用维度模型重新建模(join 成宽表)。

14.DWS层: 对数据依据以分析目的做汇总。

15.Binary(字节序列):二进制 0,1。

16.抽样: 从一堆数据中随意筛选几个。

17.数据倾斜: (一批数据处理后一个桶少,一个桶多) 或者 是 (分组统计时一组数据特多一组数据特少)。

18.映射关系:对应关系。

19.数据清洗: 处理重复数据,处理缺失数据,去异常数据。

20.分布式存储: 一个文件切成多份放到不同的位置。

21.数据壁垒:壁垒比喻对立的事物和界限,数据壁垒就是企业之间数据不公开,此处就是,不同数据源(MySQL 的拉勾教育数据, SqlSever的拉勾招聘数据,不同的数据库数据源把两批数据分隔了)。