2023年大数据领域的十大热门词汇:DataOps

发表时间: 2023-11-09 14:45

随着我国大数据产业政策日趋完善、产业基础日益巩固、数据要素市场建设不断深化,大数据产业再次迎来巨大发展空间。在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。

今天我们来聊一聊“DataOps”这个关键词。近几年,DevOps的火热程度日渐高涨,同时涌现出了各种Ops,包括DevSecOpsGitOpsAIOpsNoOpsDataOpsMLOpsFeatureOpsModelOpsFinOps等等。其中,对于企业来说,确保数据以高效和合规的方式使用,DataOps正变得至关重要

什么是DataOps

DataOps数据操作的缩写,维基百科对 DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps 的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。

2018 Gartner 发布的《数据管理技术成熟度曲线》报告中,DataOps 的概念被首次提出。该报告指出:

DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。

DataOps 将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

DevOps 的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。

DataOps目标功能

DataOps旨在减少整个分析周期时间。因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能:

部署:包括基础架构和应用程序。无论底层硬件基础设施如何,配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天;

运维:系统和应用程序的可扩展性,可用性,监视,恢复和可靠性。用户不必担心运维,可以专注于业务逻辑;

治理:数据的安全性,质量和完整性,包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。

可用:用户应该能够选择他们想要用于数据的工具,并根据需要轻松运行它们。应将对不同分析/ ML / AI框架的支持整合到系统中;

生产:通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,并且数据的使用应该很容易并由系统管理。

简而言之,它类似于DevOps方法:从编写代码到生产部署的路径,包括调度和监视,应由同一个人完成,并遵循系统管理的标准。与提供许多标准CI,部署,监控工具以实现快速交付的DevOps类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据平台并充分利用数据的价值。

我们的思考

DataOps强调的是一大特点是“低门槛”,如果说门槛不够低,那数据处理的过程就无法去做简化,我们希望做到的低到什么程度呢?就是一个应届毕业生从数据的获取到数据的加工治理再到后面的数据分析,最终产出一份简单的分析报告,一个星期之内可以完完全全的做下来,这就能达到“低门槛”的效果。

其实DataOps的核心就是把数据使用的效率大幅度提升,对平台工具的要求就是:我能有这么一个平台,你想得到什么样的分析结果,我在上面能够立马尝试,分钟级有测试效果,这样做是最有意义的一件事情。

践行云原生DataOps,需要正确的方式和工具。

当下我们正需要用一款工具及平台解决目前繁杂的数据开发问题,在实践中降低迈入数据大门的门槛。由万山数据自主研发的一款即开即用,快速搭建数据处理流程的新一代数据治理平台DG4L已上线。

DG4L解决的问题:

1、多源异构的数据集成。通过统一的SQL实现人大金仓、南大通用、达梦等国产数据库MySQLOracleSQLserverGreenplumPostgresql等常见的开源与商业数据库,以及API接口、设备日志等数据集成。

2、高速数据治理。亿级数据秒级响应。

3、可视化数据治理。将数据加工治理过程,全面SQL化,实现无需编译无需第三方调度工具的测试即上线的自动化数据治理,解决数据处理逻辑不可见问题,让技术人员、业务人员即时掌握数据质量,及时掌握数据异常情况。

4、全面的数据分析。通过经营分析、运营分析、生产分析、流程分析、领导驾驶舱,实现决策、经营、运营、生产管理、流程优化等多层面、多角度的及时数据分析,为数字化转型提供有力支持。

DG4L产品架构: