随着手机及其他智能化设备的普及,全球网络在线人数激增,空天互联网的发展更至万物互联,我们激荡在数字信息浪潮中。这些所谓的数字信息就是当下常被提及的“数据”。这个“数据”比起传统的数据,它显然大了许多。大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,这样的数据集就是大数据。因此,我们说,大数据是指非常庞大、复杂的数据集,特别是来自新数据源的数据集,表现为高速涌现的大量多样化的数据。其规模之大令传统数据处理软件束手无策,却能帮助我们解决传统数据所不能解决的难题。
大数据通常有5个典型的特征,习惯上又被称为5V特征:容量大(Volume)、速度高(Velocity)、多样性(Variety)、多变性(Variability)、密度低(Value)。容量大主要表现在它在量的规定性方面具有数值巨大和来源巨多的特点。速度高则主要体现在大数据在量的规定性方面具有生成速度快、存储速度快、分析速度快、处理速度快等特点。多样性主要指大数据在量的规定性方面具有来源类型繁多的特点。多变性即是指大数据在量的规定性方面具有数据结构经常变化、数据意义时常改变的特点。密度低即只有在海量的数据中才能挖掘出其中蕴含着的少许的商业、工业等应用价值。
大数据是历史地生成的,从数据到大数据的发展过程蕴含着大数据深厚的历史性。在大数据的历史生成中表现出来的数据性特征使大数据不同于数据,大数据之“大”凸显了其量的规定性。一方面,大数据“大”的量的规定性引起的质变一方面使大数据呈现为数据集,这种数据集从数量级看由TB级上升至PB级、EB级,甚至已经达到ZB级别;另一方面,大数据的数据集呈现的高数量级别使其收集、存储、分析、处理的工具与手段都和传统的数据处理方式有着本质的不同,大数据要求运用现代数据库管理软件去获取、存储、分析、处理海量的数据集。
面对数据爆炸式的增长,存储设备的性能也随之得到相应的提高。计算机的计算能力和性能的不断提高,各种高速高频传输网络不断的投入使用,光纤传输带宽的快速增长,存储设备性能的提高,云计算技术兴起等等信息科技的进步,是大数据产生的储存和流通的物质、技术基础。
从来源来看,大数据包括消费大数据和工业大数据,随着社会的发展,数据资源化趋势越来越明显。
消费大数据主要是指人们日常生活产生的痕迹性数据,在互联网上留下的印记,可不要小看这些“痕迹”和“印记”,它们可是各大互联网公司积累和争夺的对象。Google依靠世界上最大的网页数据库,充分挖掘数据资产的潜在价值,冲破了微软的垄断;Facebook基于人际关系数据库,推出了graph search搜索引擎;在国内,阿里和京东两家最大的电商平台也曾打起了数据战,利用数据评估对手的战略动向、促销策略等等。
工业大数据主要是指工业领域产品和服务全生命周期数据的总称,包括工业企业在研发设计、生产制造、经营管理、运维服务等环节中生成和使用的数据。在工业大数据方面,众多传统制造企业利用大数据成功实现数字转型,这表明,随着“智能制造”快速普及,工业与互联网深度融合创新,工业大数据技术及应用将成为未来提升制造业生产力、竞争力、创新能力的关键要素。工业和信息化部在2020年出台了《关于工业大数据发展的指导意见》(工信部信发〔2020〕67号),提出促进工业数据汇聚共享、深化数据融合创新、提升数据治理能力、加强数据安全管理,着力打造资源富集、应用繁荣、产业进步、治理有序的工业大数据生态体系。