2023年,大数据是否已过气?从事大数据行业还有前景吗?

发表时间: 2022-12-01 11:09

2013年,大数据刚刚兴起,大量程序员在那个时间点通过学习大数据,踏上了升职加薪的日子。那时候只要懂一点Hadoop,就能写一点HQL,工资翻倍是分分钟的事。

但现在是2302年,哦不,是2022年。仅凭一项技能是没有机会向大数据转型的。


有几个原因。

1、数据开发的平台化比较成熟。普通开发者已经可以在没有专业数据开发者介入的情况下完成大部分的大数据开发,因此依靠单一的简单技能已经不再流行。

2、市场已经趋于饱和,红利期已经过去,对数据开发者的要求也变得更高。

3、各种培训机构批量产生了大量的大数据人才,一个个体拼不过这批包装好的职业培训人。

4、市场不会对大数据反应过度,也不会给与几年前一样高的待遇。只是一个普通的工程师。

当然,这并不意味着我们不能入行大数据。相反,我们应该把大数据技能纳入日常技能树,就像MySQL和Oracle一样。但是我们可能要改变我们的观念。不要把大数据当成单一技能或者救命稻草。大数据应该是一种态度,一种常态。我们应该能够用有用的数据来看待问题,使用数据分析工具,洞察数据背后的商业潜力。这是我们接下来要发力的点。只靠努力学习大数据工程师的技能已经不行了。

但以防万一,我想介绍一下目前大数据中端人才在做什么,低端人才基本不需要。


转型大数据有多少种?

很多朋友在谈到数据挖掘和大数据的时候,都会不由自主的想到机器学习算法。其实大部分数据岗位都不需要这么高深的知识。但是如果你掌握了技能树更多的内容,或许就能更强的控制你的数据上下游,或许就能晋级下一阶段。

数据挖掘的技能树无论是横向还是纵向都很深,并不适合普通人,因为深度学习真的很难,需要机器学习、深度学习、概率论、线性代数、智能优化方法、各种分布式和一致性算法、各种资源调度理论等很深的数学知识。

很多人觉得自己要掌握所有的技能才能开始这份工作。,那可不一定。总之,每个岗位各有侧重,每个岗位每个技能的权重都不一样。

从数据的产生到使用,最基本的环节就是。采集-清洗-加工-分析-决策。在这个环节上,前后需要的技能是不一样的。一般来说,后端门槛越高,复杂度越高。当然,我不是说前面不重要。每个环节都很重要,只是门槛。每个阶段都可以牛逼。

所以数据开发的岗位纵向可以分为数据采集工程师-ETL工程师-数据仓库工程师-算法工程师-数据分析师。横向上还可以有大数据运维工程师、大数据平台开发工程师、数据治理架构师、数据服务架构师、大数据系统架构师、大数据框架开发工程师等岗位,支持更早的流程更方便快捷的开发和落地,更好的维护。


如果我想转型,需要什么技能?

职业发展方面,大数据发展一般有三条线。

1.主线:服务支持线(新手基本不受欢迎)

大数据运维工程师-大数据平台开发工程师-大数据系统架构师-大数据框架开发工程师

必备:Linux,Hadoop、Spark、Flink集群,Hive,Zookeeper,HBase,kafka,Flume

可选:各种框架源代码

语言:Java、Scala、shell、Python

建议:1。先学习基本的大数据集群维护技巧,写一些shell脚本,使用定时调度功能。2.学会使用平台工具进行监控和维护,参与平台开发和工具开发。3.重组或改进现有的系统架构和框架。


2.主线:数据仓库线(新手比较友好)

数据采集工程师-ETL工程师-数据治理架构师-数据服务架构师

必选:HiveSQL,SparkSQL,FlinkSQL,Kafka,数仓建模

可选项:分布式一致性算法、JVM调优、MapReduce

语言:Scala,SQL,Java

  

3.主线:数据挖掘线(分析能力强的还是很吃香的)

数据工程师-数据算法工程师-数据分析师

必修:可视化技术、SQL、统计学、概率论、智能优化、机器学习工具(Tensorflow、scikit-learn)

可选:caffee、pytorch、OpenCV

语言:Python

如果我学Scala是转型吗?

最后说说数据从业者的语言问题。朋友总问我该不该学R,Scala,Python,Java。我的观点是,每种语言都只是它自己的工具。不要拘泥于一种语言。每种语言都有自己的专业领域。在每一个领域,你都要尽量用它擅长的语言去处理。当然,如果你已经工作了五六年,仍然受到语言的限制,你可能要考虑一下。

2019年8月编程语言排名


Scala:Spark的实现语言是Scala,现在也有一些大神用PySpark来实现一些数据处理的东西,为了兼容机器学习框架。

Python:数据抓取和机器学习是必须的,其他语言基本都是分支。不要觉得Python跑的慢。其实那些框架都是用C和C实现的,只设置了一个Python shell,做了很多优化,比自己写的C快。

R:R语言有很多数据探索和数据可视化的场景。

Java:Hadoop套件基本都是用Java实现的。熟悉Java可以让你更清楚自己占用的资源分配。瓶颈是cpu还是内存,磁盘IO还是网络IO。

结论:

大数据还是值得转型的,值得,但是仅凭一技之长翻身的机会已经没有了,想靠转型大数据涨工资的日子一去不复返了。

但是大数据高端人才对行业发展的推动作用越来越大,你还是有机会的。