数据魔法师:唤醒沉睡的数据

发表时间: 2023-04-08 05:55

来源:经济日报

将大量、多样的数据信息汇聚、打通、管理、使用;用26个英文字母和一些标点符号写出一行行代码,变成大众应用的各类应用软件和系统……这便是中电万维信息技术有限责任公司生态环境平台部大数据工程师张杰的日常工作内容。

让数据“活”起来服务大众,是大数据工程师的工作。在外人眼里,每天和数据打交道的他们很神秘,而在他们自己眼中,这项工作既枯燥又有趣,也很有成就感。

搭建管理平台

信息时代数据无处不在,怎样使其得到高效利用,从而服务于社会,是大数据工程师们肩负的责任,也是他们面临的挑战。

“甘肃省全省生态环境的总数据量有30多亿条,目前数据共享有4个数据项,数据量可以达到3200多万条……”张杰指着电脑显示屏上甘肃省生态环境监测大数据管理平台的生态环境宏观决策分析界面说。

2017年,张杰从甘肃农业大学计算机科学与技术专业毕业后,就一直从事大数据相关工作。从最初接触这个行业到成为业务骨干,他一边磨练技术,一边见证着大数据行业的飞速发展。

“以前单体项目的数据汇总非常麻烦,而且有些数据没经过层层审核,准确度不高。”张杰说,以前数据处理要通过线上和线下的不同方式,与涉及各项数据的不同部门一一对接。如果对接到的数据是线下表格或文档等非结构化数据,还需要付出大量时间和精力进行整理和解析,工作十分繁琐。

2018年,公司接触到大数据相关数据库和处理工具,便开始对文档、音频、视频等信息进行智能整理。张杰说,“2018年之前,我们还从堆积如山的文档资料中寻找想要的核心信息,有了大数据处理手段,一切变得轻松起来”。

2019年,张杰和同事们开始参与单体应用项目,用大数据解决单一的业务问题。此后,逐渐搭建起了大数据管理平台,将各个业务系统封闭的数据进行统一汇聚、治理、分析、服务,形成协同应用,并完成了甘肃生态环境监测大数据平台的验收交付。

打通数据“孤岛”

大数据,顾名思义就是大量的数据、海量的资料,包括常规数据和图表等多种形式。如何以“聚、通、管、用”等方式打通数据“孤岛”,实现更广泛的应用,是大数据工程师主要思考的问题。

“比如大气、土壤和水3个数据,都有各自的监测指标,不能单凭一个指标就判定一个区域的环境质量,要把几项数据打通,找到他们的共同性、关联性,然后通过综合评判,才能知道整体的生态环境怎么样。”张杰告诉记者,在大数据处理中,第一步就是要把大量数据收集、汇聚起来,第二步就是要打通各类数据之间的壁垒,为后期的管理和运用打下基础。

“通俗来讲,就是要通过顶层规划设计,建立起数据台账。相当于目录和标签,在使用过程中结合实际业务需求,可以随时进行检索。”张杰说。

“一个单一的数据只包含单一信息,但把这个数据最大化地使用起来,用完后把结果返回,作为一个新的数据存储,如此循环,整个数据就能包含更多信息,就‘活’了起来。”张杰说。

增强学习能力

有时会感到枯燥,有时会有挫败感,有时又很有成就感,这就是大数据工程师的真实写照。

“一个看似简单的微信公众号页面,后台要通过成千上万的代码来实现。这些业外人士看不懂的代码,就是我们对外交流的语言。”张杰说,大数据工程师的工作就在幕后。

“自己闷头敲了半天代码,突然出来结果,那个时候特别有成就感;如果长时间没有结果,也难免产生挫败感。”张杰说。

张杰清楚地记得,参加工作之初,要写个三级联动小程序,他一周都没写出来,感到苦恼。后来,在师傅帮助下,他才写出来小程序。但完成后,他又删除了这个程序,从头开始反复写、反复琢磨,直到慢慢上手,有了一些心得。通过工作经验的积累,他如今正基于现有的平台不断尝试,进行新的研发建设工作,也逐渐找到了这项工作的意义。

大数据技术发展得很快,一个新概念出现了,还没来得及弄太明白,市面上就已经出现相应应用产品。这对我们大数据工程师来说,总是充满挑战。”张杰说,大数据技术发展日新月异,为了不让自己掉队,他会积极参加公司定期组织的学习、培训,还会通过自学、企业外聘专业老师授课培训等多种形式学习新技术、新业务。“如果不学习就跟不上了,所以一刻都不能放松。”张杰说,他会紧跟大数据技术发展的步伐,不断充实自己。 (经济日报记者 赵 梅)