探索15款顶级开源数据挖掘工具

发表时间: 2023-12-25 23:02

大家好,我是Echa。

数据,已成为互联网企业非常依赖的新型重要资产。“用数据说话”也越来越成为一种共识,然而并非任何数据都可以用来说话。

智能数据挖掘与处理技术

在数字化时代,海量数据成为了各行各业的宝贵资产。然而,仅仅拥有大量数据并不足以带来商业价值,关键在于如何从这些数据中提取有用的信息和洞察。数据挖掘和数据分析成为了实现这一目标的关键工具,可以帮助企业发现隐藏在数据背后的价值,做出更明智的决策。

我们身处信息爆炸的时代,我们每个人每天都要和无数的数据打交道,对从事大数据行业的人来说更是如此。在大数据行业有三个热门的技术词汇:数据挖掘、数据分析、数据质量。


大数据分析师技能图谱

随着组织不断发展壮大,组织内部数据量剧增,数据系统存在大量无效冗余旧数据,错误数据,残缺数据的情况,影响后续数据处理分析,使管理层决策失误。问题数据频繁出现的背后,是组织数据质量管理不善导致的。

数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。

这个时候肯定会有不少的粉丝会咨询,数据分析、数据挖掘、数据质检三者之间有啥区别呢?

简而言之:数据分析一般是具有明确的分析目标的,而数据挖掘则是要从海量的数据中寻找潜在的规律从而获取价值。


  • 数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。

数据分析的完整流程图

  • 数据挖掘,顾名思义,就像从沙子中挖掘黄金。

数据挖掘全过程

  • 数据质量含义还是比较好理解的。简单一点来说,就是对数据进行的质量检测。这个就不过多解释。

数据质量问题

他们主要区别体现在以下几个方面:

  • 数据分析的重点在于观察数据,而数据挖掘的重点是从数据中发现潜在的有价值的规律。
  • 数据分析主要依赖人工的技术操作活动,而数据挖掘主要是依托于计算机科学从庞大的数据集中提取有价值的信息。
  • 通过数据分析得到的信息需要人工进一步提取价值,而通过数据挖掘得到的规律结论可以直接应用于业务进行预测。
  • 数据分析不能直接建立数学模型,需要人工建模,而数据挖掘可以自动完成。传统的控制论建模本质就是描述输入变量与输出变量之间的函数关系。数据挖掘可以利用机器学习技术自动建立输入与输出的函数关系,根据数据中的规律给出输入参数,得出输出量。

借此机会,今天小编给大家15个热门开源免费的数据挖掘、数据分析、数据质量管理工具,值得学习收藏,让正在从事大数据小伙们有头绪和对数据挖掘、数据分析思路,希望对更多粉丝们有所帮助。同时祝福大家一切顺利,心想事成,永远开心快乐,身体健康,愿你的生活更加充实,愿你的未来更加辉煌接下来小编给大家介绍一些开源免费的数据挖掘、数据分析、数据质量管理工具,喜欢的小伙们记得点个赞和收藏。

全文大纲

  1. SZT-bigdata - 深圳地铁大数据客流分析系统
  2. dbt-core - 是一个数据管道开发平台,支持动态SQL、模板和建模等功能。
  3. erd-online - 是全球第一个开源、免费在线数据建模、元数据AI平台。
  4. LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
  5. datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。
  6. Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
  7. deequ - 是一款非常适合用于Spark的质量检测工具
  8. datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。
  9. piflow - 混合型科学大数据流水线系统。
  10. great_expectations - 是最受欢迎的数据质量管理工具之一。
  11. TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。
  12. Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统
  13. soda-core - 是一个Python开发的开源数据质量工具
  14. bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具
  15. mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报

SZT-bigdata - 深圳地铁大数据客流分析系统

Github:https://github.com/geekyouth/SZT-bigdata

介绍

  • 该项目主要分析深圳通刷卡数据,通过大数据技术角度来研究深圳地铁客运能力,探索深圳地铁优化服务的方向;
  • 强调学以致用,本项目的原则是尽可能使用较多的常用技术框架,加深对各技术栈的理解和运用,在使用过程中体验各框架的差异和优劣,为以后的项目开发技术选型做基础;
  • 解决同一个问题,可能有多种技术实现,实际的企业开发应当遵守最佳实践原则;
  • 学习过程优先选择较新的软件版本,因为新版踩坑一定比老版更多,坑踩的多了,技能也就提高了,遇到新问题可以见招拆招、对症下药;

dbt-core - 是一个数据管道开发平台,支持动态SQL、模板和建模等功能。

Github:https://github.com/dbt-labs/dbt-core

dbt 官网

介绍

dbt™是一个SQL优先的转换工作流,使团队能够按照模块化、可移植性、CI/CD和文档等软件工程最佳实践快速协作地部署分析代码。现在,数据团队中的任何人都可以安全地为生产级数据管道做出贡献。

dbt是一个数据管道开发平台,支持动态SQL、模板和建模等功能。dbt的一个重要特性是自动化测试,用户可以使用dbt执行全面数据测试、数据质量检查和数据验证。可以在数据管道、数据源和目标数据之上使用dbt执行的质量检测模型,例如:数据范式(3NF及以上)模型、维度模型和数据仓库模型。

dbt除了提供数据测试和数据质量功能,在应用生态上,许多公司还为dbt扩展数据质量功能。例如:Elementary,它能够总结dbt中的所有内容,提供数据质量监控指标、数据新鲜度、数据异常信息和异常数据分析的功能。

系统截图

erd-online - 是全球第一个开源、免费在线数据建模、元数据AI平台。

Gitee:https://gitee.com/MARTIN-88/erd-online


介绍

ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管理数据库中的元数据。

特性

  • 开箱即用:将注意力集中在数据结构设计上
  • 团队协作:三级权限(拥有者、管理员、普通角色)管理,元素级权限控制
  • 元数据设计:快速复制已有表结构、JSON 生成表,表默认字段、默认大小写等控制
  • 元数据管理:在线管理表结构,支持正向向数据库执行
  • 元数据解析:将已有的数据库结构解析到软件中管理
  • 多数源支持:支持多种数据库连接在线管理(Mysql、Oracle、DB2、SqlServer、PostGreSql),各数据源之间元数据结构同步
  • 版本管理:每个需求与变动,都可以生成版本;每个版本之间可以比对差异
  • 可将所有表结构,自动生成 word、html、md 文档,便于线下流动
  • 在线SQL:在线SQL查询、SQL执行计划,历史查询留痕
  • 永不丢失:元数据历史操作版本留痕(最近9次),可以恢复到任意历史版本
  • 数据字典:全局数据字典设计,控制元数据设计规范

发展里程碑

产品图鉴


系统截图





LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

Gitee:https://gitee.com/LarkMidTable/LarkMidTable

介绍

LarkMidTable 中文名称 云雀,云代表大数据,雀代表平凡和自由。

LarkMidTable 是一站式开源的数据中台,实现中台的基础建设,数据治理,数据开发,监控告警,数据服务,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

产品架构图


系统截图

datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。

Github:https://github.com/devlive-community/datacap

介绍

DataCap 是用于数据转换、集成和可视化的集成软件。

支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。

通过软件可以实现多数据源的管理,对源下的数据进行各种操作转换、制作数据图表、监控数据源和其他功能。

系统截图




Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台

Gitee:https://gitee.com/WeBank/Qualitis

介绍

Qualitis是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。

Qualitis基于Spring Boot,依赖于Linkis进行数据计算,提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了金融级数据质量模型资源隔离,资源管控,权限隔离等企业特性,具备高并发,高性能,高可用的大数据质量管理能力。

核心特点

  • 数据质量模型定义
    支持以下数据模型定义:
    1.单表校验数据模型。
    2.跨表校验数据模型。
    3.自定义校验数据模型。

    同时,系统预置了多个数据质量校验模版,包括空值校验,枚举校验等常用校验,并且支持自定义数据质量模版。
  • 数据质量模型调度
    支持数据质量模型调度。
  • 数据质量报表
    支持生成数据质量报表。
  • 日志管理 日志聚合管理,方便排查数据质量任务
  • 异常数据管理 支持异常数据提取和存储,快速定位问题
  • 支持工作流 支持在工作流当中进行数据质量校验
    工作流必装DataSphereStudio.
  • 管理员控制台
    提供管理员控制台界面,支持人员管理,权限管理,权限管理,元数据管理等管理功能。

与类似系统对比

架构图

用例图


系统截图

deequ - 是一款非常适合用于Spark的质量检测工具

Github:https://github.com/awslabs/deequ

介绍

Deequ是一个建立在Apache Spark之上的库,用于定义“数据单元测试”,测量大型数据集中的数据质量。

随着Spark的应用越来越多,Deequ是一款非常适合用于Spark的质量检测工具,非常适合测试大批量数据,Spark DataFrame的任何东西都可以使用Deequ进行测试。并将结果输出到任何关系数据库、CSV文件或者日志等。Spark的作业主要使用Scala或Python语言编写,对于原生Scala,Deequ可以直接使用,但对于Python,就需要一个名为PyDeequ的包装器。


datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。

Gitee:https://gitee.com/yuwei1203/datax-cloud

介绍

智数通提供了元数据管理、数据标准管理、数据质量管理、主数据管理、数据集市管理、可视化图表看板、流程管理等微服务,是为数字化建设而生的企业级一站式数据治理平台。

特性

  • 智数通服务理念:平台化、资产化、服务化,及围绕“平台化”、“资产化”、“服务化”,聚焦数智场景,赋能行业生态,让数据产生价值。
  • 智数通应用微服务云原生技术,封装了大量技术开发包、技术应用组件、技术场景实现能力,提供了一个可支持企业各业务系统或产品快速开发实现的微服务应用数字化融合平台,富含各类开箱即用的组件、微服务业务系统,助力企业跨越Cloud与自身数字化的鸿沟,共享业务服务的组合重用,为企业服务化中台整合、数字化转型提供强力支撑,也为企业提供了最佳架构实践。智数通不仅提供了企业级应用系统所包含的常用开箱即用的模块,并支持灵活的可配置性和拓展性。智数通还是一套基于Spring Cloud的微服务应用程序框架,可帮助公司更快,更高效地进行微服务开发。
  • 智数通理念认为,企业首先应当建立集中统一的数据中台,将全域的数据都同步到统一的数据中台,基于数中台来进行数据治理,事半功倍。数据存储统一,可以在后续的数据治理和数据业务化的过程中实现数据不搬动,降低数据的处理成本;数据计算统一,可以实现基础元数据的自动维护,为数据治理打下最坚实的基础。
  • 智数通提供了统一的元数据自动采集和维护入口,在元数据模块中为数据管理提供了准确实时的基础数据,在此之上结合企业的现状调研和咨询,可以构建企业级的数据资产类目体系和数据安全体系;同时,通过数据质量模块,实现数据处理的质量管控。然后通过数据API模块,为上层丰富的数据应用价值实现提供引擎能力。通过可视化模块无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务等等。
  • 从数据同步、到数据开发、到数据管理、到数据质量控制、到数据应用价值实现,智数通在产品层面对于指引都能提供支撑,这是将多年大数据实践经验产品化的结果。智数通,就是为数据治理而生的企业级一站式数据中台,为数据市场抢占先机。

架构图

智数通采用 J2EE 技术体系,基于Spring Cloud微服务框架进行封装,平台设计灵活可扩展、可移植、可应对高并发需求。同时兼顾本地化、私有云、公有云部署。

主要技术栈

后端技术栈

  • 开发框架:Spring Boot 2.3
  • 微服务框架:Spring Cloud Hoxton.SR9
  • 安全框架:Spring Security + Spring OAuth 2.0
  • 任务调度:Quartz
  • 持久层框架:MyBatis Plus
  • 数据库连接池:Hikaricp
  • 服务注册与发现: Spring Cloud Config
  • 客户端负载均衡:Ribbon
  • 熔断组件:Hystrix
  • 网关组件:Spring Cloud Gateway
  • 消息队列:Rabbitmq
  • 缓存:Redis
  • 日志管理:Logback
  • 运行容器:Undertow
  • 工作流: Flowable 6.5.0

前端技术栈

  • JS框架:Vue、nodejs
  • CSS框架:sass
  • 组件库:ElementUI
  • 打包构建工具:Webpack

系统截图

piflow - 混合型科学大数据流水线系统。

Gitee:https://gitee.com/opensci/piflow

介绍

混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能

特性

  • 简单易用
    • 可视化配置流水线
    • 监控流水线
    • 查看流水线日志
    • 检查点功能
    • 流水线调度
  • 扩展性强:
    • 支持自定义开发数据处理组件
  • 性能优越:
    • 基于分布式计算引擎Spark开发
  • 功能强大:
    • 提供100+的数据处理组件
    • 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
    • 集成了微生物领域的相关算法

架构图

系统截图

great_expectations - 是最受欢迎的数据质量管理工具之一。

Github:https://github.com/great-expectations/great_expectations

介绍

Great Expectations(GX)可以数据工程师进行质量检测、创建分析文档来提高团队成员对数据的理解。

Great Expectations(GX)是最受欢迎的数据质量管理工具之一。

GX期望通过连接到数据源运行事先定义好的集成模板来检测数据。在官方指南中,可以找到更多关于GX与Databasericks、Flyte、Prefect和EMR等工具和平台集成的信息。目前Great Expectation维护非常积极,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

GX规范了“数据的预期状态”。GX与数据源的集成意味着所有的数据质量检查都在适当的位置完成,并且没有数据被移出数据源。GX还可通过自动化数据质量检测、实时监测结果记录以及运行摘要来支持数据质量管理。GX还可以直接与Airflow , Meltano等工具集成。支持将质量检测结果保存到各种数据库或者文件系统中。

TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。

Gitee:https://gitee.com/guangzhou_TipDM_intelligence_devp/TipDM

介绍

TipDM建模平台,是由广东泰迪智能科技股份有限公司研发并开源的数据挖掘工具,TipDM建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,帮助广大中小企业快速建立数据挖掘工程,提升数据处理的效能。同时,我们也在积极 推动大数据挖掘社区建设,构建校企对接桥梁,为企业精准推送优质大数据挖掘人才;在产业需求的基础上推动高 校的人才培养工作。

特性

  • 基于Python,用于数据挖掘建模。
  • 使用直观的拖放式图形界面构建数据挖掘工作流程,无需编程。
  • 支持多种数据源,包括CSV文件和关系型数据库
  • 支持挖掘流程每个节点的结果在线预览。
  • 提供5大类共40种算法组件,包括数据预处理、分类、聚类等数据挖掘算法。
  • 支持新增/编辑算法组件,自定义程度高。
  • 提供众多公开可用的数据挖掘示例工程,一键创建,快速运行。
  • 提供完善的交流社区,提供数据挖掘相关的学习资源(数据、代码和模型等)。

系统截图

Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统

Github:https://github.com/yaoguangluo/ETL_Unicorn

介绍

德塔人工智能数据分析ETL可重用节点工作流处理软件引擎系统。

这个工程用于节点数据工作流执行。该软件的亮点为:世界最轻的ETL批处理引擎(6KB)采用VPCS结构,启动快,效率高,操作简单,结构轻,网页嵌入,执行快,高并发,二次开发简易,自由修改源码实现各种风格。

系统截图







soda-core - 是一个Python开发的开源数据质量工具

Github:https://github.com/sodadata/soda-core


介绍

Soda Core是一个Python开发的开源数据质量工具,旨在确保数据平台中的数据可靠性。它附带了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一种兼容YAML,可靠的,用于特定领域的语言。

Soda Core可以连接到数据源和工作流,确保数据不论在管道内还是管道外都能够被检测。

Soda Core支持广泛的数据源、连接器和测试类型,它是目前开源项目中对数据连接器覆盖最全面的数据质量工具,如Dask、DuckDB、Dremio等。

Soda Core是一个免费的、开源的命令行工具和Python库,使您能够使用Soda Checks Language将用户定义的输入转换为聚合的SQL查询。

当Soda Core在数据集上运行扫描时,它会执行检查以查找无效、丢失或意外的数据。当您的苏打水检查失败时,它们会显示您定义为质量差的数据。

✔与SodaCL语言兼容

✔支持数据管道和开发工作流内外的数据质量测试

✔集成以允许在数据管道中进行Soda扫描,或按基于时间的时间表进行编程扫描


bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具

Gitee:https://gitee.com/bboss/bboss-elastic-tran

介绍

bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。

bboss-datatran 数据同步作业直接采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,实现流批一体数据处理功能;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用一起运行;提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(resume)、停止控制机制,可轻松定制一款属于自己的ETL管理工具。

工具可以灵活定制具备各种功能的数据采集统计作业

  • 只采集和处理数据作业
  • 采集和处理数据、指标统计计算混合作业
  • 采集数据只做指标统计计算作业

特点

  • 支持时间维度和非时间维度指标计算
  • 时间维度指标计算:支持指定统计时间窗口,单位到分钟级别
  • 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算
  • 一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算

mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报

Github:https://github.com/ubisoft/mobydq


介绍

MobyDQ是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报,无论他们使用的数据源是什么。

数据质量检测工具MobyDQ可以独立运行于开发环境和测试环境。而在生产环境中,MobyDQ也支持使用Docker或Kubernetes容器运行。 MobyDQ的数据质量框架主要侧重四大质量指标:完整性、新鲜度、响应时间和有效性。MobyDQ支持丰富的数据源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允许用户使用其GraphQL API运行测试,支持将此API与Python 或 JavaScript之类的编程语言一起使用,另外,MobyDQ在结构化数据测试方面,它还提供了基于Hive,PostgreSQL,MySQL等数据源的Demo。

截图

最后

一行代码,可能会创造出下一个让人惊叹的产品;
一个创新,可能会开启一个全新的科技时代;
一份初心,可能会影响到无数人的生活;
无论是在大公司工作,还是在小团队奋斗;
无论是资深的程序员,还是刚刚入行的新手;
每个人的代码,都有力量改变世界。

创作不易,喜欢的老铁们加个关注,点个赞,打个赏,后面会不定期更新干货和技术相关的资讯,速速收藏,谢谢!你们的一个小小举动就是对小编的认可,更是创作的动力。

创作文章的初心是:沉淀、分享和利他。既想写给现在的你,也想贪心写给 10 年、20 年后的工程师们,现在的你站在浪潮之巅,面对魔幻的互联网世界,很容易把一条河流看成整片大海。未来的读者已经知道了这段技术的发展历史,但难免会忽略一些细节。如果未来的工程师们真的创造出了时间旅行机器,可以让你回到现在。那么小编的创作就是你和当年工程师们的接头暗号,你能感知到他们在这个时代的键盘上留下的余温。

#文章首发挑战赛#