数据工程:大数据分析的六步曲之数据处理

发表时间: 2023-10-25 22:16

数据工程是以产生决策智能为目标,将多种数据员中的相关数据提取、融合、梳理整合成一个分析的数据集与处理规划。数据清洗、去除重复数据。数据连接是数据工程设计的主要操作,这也是大数据常用的技术。了解这些技术大家也能够进一步理解数据工程主要的内涵,以及具体要做哪些事情,解决了哪些问题。这里的步骤不是必须都要做的,是根据需要去做。

·先来说数据预处理。数据预处理操作涉及数据的码制转换,常见的码制有j、b、k、还有 u、t、f8、u 内扣的。

·第二个是反减转化。尤其是港台的一些文字将繁体字转为简体字,还有h、t、m、l内容文本提取,从互联网采集的数据通常为h、t、m、l格式,需要将h、t、m中可以显示的文本内容提取出来。作为指定字段的内容,还有像表情符的处理,不断的拆分与合并等操作,都是在数据与处理环节做的操作。

·第二个是数据的归一化。包含不同心愿数据的自断的归一化、特征的归一化、时间的归一化、地名的归一化。什么意思呢?字段的归一化,比如不同爬虫采下来的作者字段命名可能就是不同的,有的可能叫发布者,有的可能叫作者需要把数据整合到一起进行分析。

需要先把字段的命名做归一,时间归一化是做什么的呢?比如像表达时间、文本可能是某年某月某日的形式,也可能是二零一九斜杠、一二斜杠二零的形式,也可能是说几天前几小时前。将这些需要将这些时间的表达统一成一种表达形式,这样才可以做后续的数据分析和统计,避免归一化。

也是这个道理,杭州文本可能是杭州,也可能是杭州市。需要从都归一化为一种地名的表达形式,甚至表达成四级行政区划,浙江省杭州市的表达形式。

·第三个要讲的是数据的清洗。对噪音数据进行清洗,噪音可能是自断的部分内容,也可能是整条数据。比如做电商评论数据处理的时候需要清洗掉字符数小于五的无效数据,或者是默认好评的灌水数据,或者是水军发布的数据,需要根据具体的需求及数据的质量去确定。

·第四个需要了解的数据技能是去除重复数据。数据存在重复是很常见的现象,但造成数据重复的原因有多种多样,所以对于数据重复通常需要有针对性的处理,所以需要一个判断重复的标准。比较简单的就是所有的都一模一样,判定为重复,这个也是比较好处理的、复杂的需要。数据冗余需要一个或多个字段去联合。当字段为文本类型的时候需要引入crc或者是md5算法产生一个新的编码字段。

·第五个数据处理是连接。是将不同类型的数据进行连接。比如主铁和回车的关联,主铁和人物的关联、店铺和产品信息的关联做连接主要是找到共同的字段。这个字段需要是个唯一的常识,常用的连接字段。有xx、数据工程相关的6个工程之数据工程如何进行数据处理?