大数据(一)
常见AI术语浅谈(1)
一、什么是大数据?
大数据(Big data),又称为巨量资料。到目前为止,大数据不是一个非常精确的术语,有指代数据本身,指代大量的数据,还有指代对数据的分析或从中获得的洞察力,大数据的内涵的功能性作用。
(一)、维基百科定义:
大数据是指无法在一定时间范围内,用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(二)、百度百科定义:
大数据由巨型数据集组成,这些数据集,大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变。不同时期有不同的量。
(三)、MBA智库百科定义:
大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。
(四)、高德纳对“大数据”定义:
高德纳(Gartner)是全球权威的IT研究公司,IT研究领域,可以说是无人不知无人不晓。在全球的IT产业中,Gartner发布的IT评测报告极具可信度。
Gartner给出“大数据”定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
二、大数据特点、特征:
(一)、维克托·迈尔-舍恩伯格提出大数据五大特点:
维克托·迈尔-舍恩伯格编写的《大数据时代》是国外大数据研究的先河之作。在《大数据时代》书中提出大数据的5V特点:
Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
(二)、大数据四大特征:
1,海量的数据规模:
数据规模大到在获取、存储、管理、分析方面超出了传统数据库,软件工具能力范围的数据集合。
2,快速的数据流转:
大数据增长速度快,处理速度快,数据流转快,有很强的时效性。
3,多样的数据类型:
大数据的种类和来源多样化,为数据处理带来了挑战。
数据结构上,分为结构化、半结构化、非结构化数据。
形式多样上,可分为视频、音频、博客、社交网络、网络购物、互联网搜索……。
4,价值密度低:
在海量的数据中,很大一部分数据没有价值,需要进行筛选、过滤……处理获得有用信息。借助科技手段来提高数据的价值密度,采取数据预处理、数据分析算法……。
三、大数据作用和意义:
(一)、大数据不能束之高阁,需要专业化处理:
1,历史的教训:
大数据绝不是拿过来,占有就大事完成了。
比如:互联网刚刚兴起的时候,很多企业,事业单位、ZF机构觉得建立个网站才是做了一个大事,才是符合时代潮流……。几十年过去了,尘埃落定,很多单位、机构的网站无人管理,成为摆设。多年不去更新网页,浪费资源,浪费GJ财力……。
近几年很多城市都在向GJ申请上“大数据”项目,一定要吸取风起云涌建网站风潮的教训。
要做好手握大数据,发挥大数据的作用,没有这个能力就不要去搞大数据。
2,贵州全国首个大数据综合试验区成果显现:
从贵州大数据元年2014年始,不到10年光景,贵州大数据综合试验区“数字红利”加速释放。贵州成GJ算力网络枢纽节点,吸引一批GJ级数据中心落地贵州。贵州省软件、信息技术服务业、与大数据服务相关产业收入直线上升。改变了贵州省的经济结构和经济面貌。
贵阳建设大数据科创城,打造信息采集、数据存储、技术开发、语言互译四大支撑体系,吸引了一批跨国企业数据资源项目落户贵州。
3,大数据意义在于对数据进行专业化处理和应用:
大数据技术的意义,不是掌握庞大的数据信息,而是要对这些含有意义的数据进行专业化处理。
大数据是资产和产业,资产和产业实现盈利关键,在于提高对数据的“加工能力”,通过“深加工”实现数据能够有效的应用,才能“增值”。
4,大数据与云计算:
大数据与云计算的关系是相互依存。大数据无法用单台计算机进行处理,需要采用分布式架构。
分布式架构特色在于对海量数据进行分布式数据挖掘。大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术……。
待续。
2023年12月29日