大数据。
大家好,我们来讲大数据。
大数据是指无法在一定时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合,是需要处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点有大量、高数、多样、低价值密度、真实性五位的特点。大数据关键技术包含大数据获取技术、大数据存储管理技术、大数据并行计算技术与平台、大数据分析技术。这是大数据的获取技术,又包含了数据采集、数据整合、数据清洗等技术。
大数据的存储技术包含了谷歌的文件系统、REP7开发的分布式文件系统、都非管理型数据库、OXsoco等等大数据并行计算。技术与平台是包含了谷歌的map reduce、阿帕奇的哈杜浦map、AA大数据计算软件平台。
在这里map reduce指的就是简化的分布式并行编程模式,主要用于大规模并行程序的开发。再来看大数据分析技术。
大数据分析技术分为几个方面,第一个是对海浪的结构化数据和非结构化数据进行深度分析。对于非结构化数据进行分析,比如是将海量的语音图像、视频数据转换为机器可识别的,有明确意欲的信息,这里主要信息,技术来包含人工神经网络、机器学习、人工智能系统。
这里的机器学习是研究计算机,模拟人类学习行为以获取新知识,并重新组织已有的知识,并且不断改善自身性能,是人工智能技术的核心。要注意,大数据分析技术是人工智能技术的核心,这一个点在一年的考试当中考察过,其他大数据技术就包含了phone、卡不卡、spark等等一系列技术。
在这里我们要了解phone,它是一个高可用、高可靠、分布式的大量、日志采集集合传输的系统。卡夫卡是一个分布式的发布和探索的消息系统。而spark它是类似于哈多普卡尔 MOS 的,通用并行框架。spark是具有多普 FalL的所有特点。当然spark更适合用于数据挖掘和机器学习。而谷歌常常于处理离线复杂的数据spark用于快速处理离线的数据。