以下为译文:
在11天内,13个与大数据相关的 Apache 项目(包括 Sentry、Tajo 和 Falcon)宣布取消。Hadoop 和大数据的理想主义时代似乎正式结束了。
Apache Hadoop 曾经是大数据的代言人,而今已经过了它的鼎盛时期,这已经不是什么秘密了。自4月1日以来,Apache Software Foundation (apache 软件基金会,简称 ASF)就宣布,至少有19个开源项目将退出其“Attic”项目,其中13个项目与大数据相关,10个项目属于 Hadoop 生态系统。
项目清单
虽然个别项目的取消公告似乎无关紧要,但从整体上看,它们构成了一个分水岭事件。为了帮助从业者和行业观察人士理解大数据开源重组的全部影响,我们列出了一个清单,以下是一些与大数据相关的 Apache 取消项目:
Apex:基于 Hadoop YARN 的大数据流和批处理统一平台。
Chukwa:一个用于监控大型分布式系统的数据收集系统,构建在 Hadoop 分布式文件系统(HDFS)上。
Crunch:提供了一个编写、测试和运行 MapReduce(包括 Hadoop MapReduce)管道的框架。
Eagle:在大数据平台(包括 Hadoop)上即时识别安全和性能问题的分析解决方案。
Falcon:为 Hadoop 设计的数据处理和管理解决方案,用于数据移动、数据管道协调、生命周期管理和数据发现。
Hama:一个大数据分析框架,运行在 Hadoop 上,基于批量同步并行范式。
Lens:提供了一个统一的分析界面,将 Hadoop 与传统数据仓库集成在一起,看起来就像一个数据仓库。
Marmotta:一个链接数据的开放平台。
Metron:专注于实时大数据安全。
PredictionIO:机器学习服务器,用于管理和部署可用于生产的预测服务。
Sentry:在 Apache Hadoop 中对数据和元数据执行细粒度授权的系统。
Tajo:Hadoop 上的大数据仓库系统。
Twill:使用 Hadoop YARN 的分布式功能和运行线程的编程模型。
不容忽略的事实
全部的列表很长,上面只是包括大数据项目的一部分。此外,由于 Cloudera、Hortonworks 的合并,Sentry 和 Metron 项目实质上已经分别被类似的 Ranger 和 Spot 项目取代。
那次合并本身就根植于大数据市场的整合,而且这种非常大的数据整合也解释了上述所有项目取消的原因。至少可以说,在不到两周的时间内宣布所有这些项目的取消是值得注意的。
官方评价
我向 ASF 询问了大数据项目平台的清理事宜。ASF 负责营销和宣传的副总裁 Sally Khudairi 通过电子邮件回复道:“Apache 项目活动在其生命周期中有起有落,这取决于社区的参与程度。我们从项目管理委员会(pmc)内部到董事会,对几个 Apache 项目的审查和评估活动有所增加,他们投票决定是否让项目退出。” Khudairi 还表示,最近 ASF 负责 Apache 的副总裁 Hervé Boutemy 非常高效地进行了“春季大扫除”,为准备取消的几十个项目做了一些收尾工作。
尽管 ASF 断言这次大数据整合只是常规项目取缔所引发的一个高潮,但很明显,大数据领域的情况已经发生了变化。Hadoop 在开源分析技术上的主导地位已经让位于 Spark,Hortonworks 和 Cloudera 之前毫无意义的重复项目已经停止,这就像达尔文进化论的自然选择过程一样。
我们需要谨慎
很明显在大数据领域,投资 Apache Sentry 的大量供应商和客户现在不得不考虑他们的损失。伴随着这个残酷的现实,我们得到了深刻的教训,这个教训几乎适用于每一个技术类别的炒作周期:一开始社区会变得兴奋起来,然后开源技术会激增,生态系统也会建立起来;但这些生态系统并不是永恒的,几乎任何新平台都存在固有的风险,无论是商业平台还是开源平台。
用 ASF 的 Khudairi 的话来说:“是每个项目背后的社区使其代码保持活力(代码不会自己写),所以社区在项目中改变步调并不罕见。”换句话说,前沿技术是令人兴奋的,但早期采用者需要谨慎:它也是不稳定的。注意形势的变化,并管理你的风险。
原文链接:
https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/
声明:本文由CSDN翻译,转载请注明来源。