大数据是不同性质(结构化、半结构化和非结构化)的多源、海量数据,需要特殊的存储和处理方法。
大数据数据库的显著特征是没有严格的模式和存储pb级数据的能力。NoSQL(非关系)数据库系统针对大数据进行了优化。它们构建在水平架构上,能够快速且经济高效地处理大量数据和多个并发查询。
数据:数据结构化数据存储在表中
模式:支持严格的(预定义的)数据模式
可伸缩性:垂直扩展
语言:结构化查询语言
事务:ACID兼容(原子性、一致性、隔离性、持久性)
最适合:复杂查询、数据库事务和日常数据分析
例子:Amazon Redshift, Azure Synapse Analytics, Microsoft SQL Server, Oracle Database, MySQL, IBM DB2等。
数据:非结构化数据根据不同的模型(键值、面向文档、图形、宽列存储和多模型)进行存储。
模式:支持动态数据模式
可伸缩性:水平扩展
语言:非结构化查询语言
事务:CAP定理(一致性、可用性和分区容忍)可能是ACID兼容的
最适合:存储和建模结构化、半结构化和非结构化数据
例子:Amazon DynamoDB, Azure Cosmos DB, Amazon Keyspaces, Amazon DocumentDB, Oracle NoSQL数据库等。
尽管非关系数据库已被证明更适合大规模的高性能和敏捷数据处理,但像Amazon Redshift和Azure Synapse Analytics这样的解决方案现在已经针对查询大量数据集进行了优化,这使得它们在处理大数据时足够了。
大数据架构可能包括以下组件:
1. 数据源——关系数据库、应用程序产生的文件(如web服务器日志文件)、物联网设备产生的实时数据。
2. 大数据存储——NoSQL数据库,用于存储大量不同类型的数据,然后对数据进行过滤、聚合和准备以供分析。
3. 实时消息摄取存储——捕获和存储用于流处理的实时消息。
4. 分析数据存储——用于准备和构建大数据以供进一步分析查询的关系数据库。
5. 大数据分析和报告,可能包括OLAP多维数据集、ML工具、自助式BI工具等,为最终用户提供大数据见解。
根据Forrester Wave的报告,一些用于数据分析和处理的最佳数据库是Amazon DynamoDB、Azure Cosmos DB和MongoDB。
1. AWS Dynamo DB
描述:(1)Forrester Wave报告中的大数据NoSQL数据库的领导者。(2)支持键值和文档数据模型。(3)ACID(原子性、一致性、隔离性、持久性)事务。(4)与AWS S3、AWS EMR、Amazon Redshift集成。(5)使用DynamoDB加速器的微秒级延迟。(6)使用DynamoDB流进行实时数据处理。(7)按需和预置两种读写容量模式。(8)端到端大数据加密。(9)时间点恢复和按需备份和恢复。
最适合:运营工作负载、物联网、社交媒体、游戏、电子商务应用。
2. Azure Cosmos DB
描述:(1)Forrester Wave报告中的大数据NoSQL数据库的领导者。(2)支持多模型数据模式。(3)SQL, MongoDB, Cassandra, Gremlin等的开源API。(4)与Azure Synapse Analytics集成,对运营数据进行实时分析。(5)支持ACID事务。(6)按需和预置容量模式。(7)大数据加密(传输和静态)和访问控制。(8)99.999%的可用性。
最适合:运营管理、电子商务、游戏、物联网应用。
3. Amazon Keyspaces
描述:(1)支持Apache CQL API代码、Cassandra许可的驱动程序和运行Cassandra工作负载的开发工具。(2)静止和传输中的大数据加密。(3)按需和预置容量模式。(4)与Amazon CloudWatch集成,用于性能监控。(5)具有时间点恢复功能的表数据连续备份。(6)AWS区域内99.99%的可用性。(7)与AWS身份和访问管理集成,用于数据库访问控制。
最适合:车队管理,工业维护应用程序。
4. Amazon DocumentDB
描述:(1)MongoDB兼容性。(2)支持ACID事务。(3)通过AWS数据库迁移服务支持迁移(例如,将MongoDB数据库本地迁移到Amazon DocumentDB)。(4)支持内置角色的基于角色的访问。(5)网络隔离。(6)实例监视和修复。(7)集群的快照。
最适合:用户配置文件、目录和内容管理。
5. Amazon Redshift
描述:(1)灵活的数据库管理平台,用于使用SQL进行大数据查询,是Gartner Analytics数据管理解决方案魔力象限的领导者。(2)自动化基础设施配置。(3)按需和预置容量模式。(4)Amazon Redshift Spectrum用于查询数据湖(Amazon S3)中的大数据。(5)对操作数据查询的联邦查询支持。(6)大数据加密(传输和静态)。(7)网络隔离。(8)行级和列级安全性。
最适合:业务事件的BI和实时操作分析。不适合以毫秒为单位的联机事务处理(OLTP)。
本文转载自 5个最佳大数据数据库- 雪兽软件
更多精彩推荐请访问 雪兽软件