数据的“形状”之一,大数据。
经典意义上的数据挖掘,通常是指对海量数据进行分析。怎么样才算是海量数据?目前还没有明确的标准。而近几年,类似于海量数据,又产生了大数据的提法,其概念无论从内涵和外延上都有了扩展。但从本质上,我们认为,大数据和海量数据是相似的。在实践中,不单单是记录数多的就称为大数据,通常大数据是指数据量和数据维度均很大,数据形式很广泛,如数字、文本、图像、声音等。而大数据往往可能蕴含着丰富的规律和知识,所以在大数据之上应用数据挖掘就成了理所当然的活动了。
数据的“形状”之二,小数据。
相对于大数据,在实践中还会存在不少特殊情况。例如在医学上有些疾病极为少见,只出现几百例,甚至几十例就几乎是该病的总体了,我们称之为小数据。业务中需要对这些小数据进行深入分析和探索,以便挖掘出罕见疾病的特征,并为相应的临床应对提出依据。对于这样规模的数据进行分析,如果按照记录数,依照传统数据挖掘观念、方法和技术,无法开展探索性的分析工作。我们认为,需求引领观念和技术,数据挖掘的一个发展分支应该是从规模较小的、有限的数据中探索其中的规律和知识,尽管目前的技术还很有限。
数据的“形状”之三,宽数据。
还有一种情况是小数据高维度,小样本大信息,我们称之为宽数据。如某些基因组信息,数据量很少,通常只有几十例到几百例,但维度很高,通常有几百个到几千个。更极端情况的是个人大信息,即单个记录下的高维信息,如从宽带、移动支付、物联网、手机等媒介收集个人信息。在不远的将来会出现单独个体的高维数据,并需要解决此类数据挖掘的新理论和新算法。
数据的“形状”之四,深数据。
我们还会遇到一种数据,涉及维度不是很宽,但是数据在某几个维度上跨度非常大,历史数据非常多,或者数据量的增长速度非常快,我们称之为深数据。如医学检查中24小时心电图监测、较长时段(如一小时以上)的脑电图监测,每小时会产生几十万至几百万条数据;再如,互联网服务商的DNS服务器对互联网访问事件的日志记录,也是每小时会产生几十万至几百万条数据。这类数据,我们有时也称为流数据。对这些深数据的挖掘也是非常具有挑战性的,一方面由于它的数据量非常大,另一方面也由于对这类数据进行挖掘的实时性要求较高。
撰稿:深数据