大数据概念及其对商业决策的影响
发表时间: 2020-06-23 19:59
容量非常大的数据称为大数据。通常我们处理的数据大小为MB(WordDoc,Excel)或最大GB(电影,代码),但Peta字节(即10 ^ 15字节)的数据称为大数据。据说今天的数据几乎有90%是在过去3年中生成的。
这些数据来自许多来源,例如
一家电子商务网站XYZ(拥有1亿用户)希望为其前一年消费最多的前10位客户提供100美元的购物券,此外,他们还希望了解这些客户的购买趋势,以便公司可以建议与他们相关的更多商品。
需要存储,处理和分析的大量非结构化数据。
存储: Hadoop使用海量HDFS(Hadoop分布式文件系统),该海量数据使用商品硬件形成集群并以分布式方式存储数据。它遵循一次写入,多次读取的原理。
处理:将 Map Reduce范式应用于通过网络分发的数据,以查找所需的输出。
分析:猪,蜂巢可用于分析数据。
成本: Hadoop是开源的,因此成本不再是问题。