大数据入门:一周一课

发表时间: 2022-06-01 15:11

大数据简要概述


大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。

百度百科认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像蚁巢一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据通常容量巨大,且内容多样化,计量单位一般都是TB甚至EB等级,简单来说,大数据技术就是采集这些信息后进行分析和处理,以获得普通数据中蕴含的更丰富信息。

1PB相当于50%的全中国学术研究图书馆藏书信息内容;

5EB相当于至今全世界人类所讲过的话语;

1YB相当于7000位人类体内的微细胞总和;

1ZB如同全世界海滩上的沙子数量总和。


大量,指大数据量非常大。必须包含尽可能详细的数据才可称为大数据。

种类,体现在数据类型的多样化,除了包括传统的数字、文字,还有更加复杂的语音、图像、视频等。

高速,指大数据必须得到高效、迅速的处理。

价值,指大数据的价值更多地体现在零散数据之间的关联上。

复杂性,体现在大数据所代表的不同信息的混杂程度。

真实性,指与传统的抽样调查相比,大数据反映的内容更加全面、真实。因为他的六大特征的英文名称首字母为五个v一个c,所以大数据的特征又被称作5v一c模型特征。

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。

大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。


(1) 优化各级政府、主管部门、各级公司企业都将基于大数据分析平台优化其决策。

(2) 带来新的革命,大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。

(3) 对相关行业的颠覆,银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务。

(4) 带来的改变:因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。

大数据的应用案例:

1、大数据使人民生活更加便利。

2、方便日常出行,利用交通系统的大数据,我们可以预约网约车出行,可以提前了解路况,避免堵车。

3、利用大数据,可以节省用户的购物时间,而且可以通过大数据分析来获取用户的准确需求,达到精准推送的效果。


挑战1:大数据技术的运用仍有困难

数据采集方面:要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,还可与历史数据对照,多角度验证数据的全面性和可信性。

数据存储方面:要达到低成本、低能耗、高可靠性目标,要用到冗余配置、分布化和云计算技术,存储时对数据进行分类,通过过滤和去重,减少存储量,并加入便于检索的标签。

数据处理方面:大数据的复杂性使得难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态及可能模棱两可的数据中综合信息,并导出可理解的内容。

可视化呈现方面:使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。


挑战2:大数据给信息安全带来新挑战

(1)加大隐私泄露风险,大量数据的集中存储增加了其泄露的风险;

一些敏感数据的所有权和使用权并没有清晰界定。

(2)对现有存储和安防措施提出挑战,复杂的数据存储在一起,可能造成企业安全管理不合规;

(3)被运用到攻击手段中,黑客可收集更多有用信息,大数据分析让攻击更精准;大数据为黑客发起攻击提供了更多的机会安全防护手段更新升级慢,存在漏洞。

事情的起因是美国中情局前职员斯诺登向媒体爆料,过去6年间,美国的情报部门通过一个代号为“棱镜”的项目,从多家知名互联网公司获取电子邮件、在线聊天内容、照片、文档、视频等网络私人数据,跟踪用户一举一动。

他说,自己只需要坐在办公桌前,动动指头,敲敲键盘,就能了解很多人的私密信息。

斯诺登的爆料引起一片哗然,根据他提供的资料,被卷入“棱镜门”事件的公司包括微软、雅虎、谷歌、苹果、Facebook等9大IT业巨头。

在“棱镜门”事件开始发酵之后,这些公司先是赶紧出面否认与美国政府的监视项目进行过合作,并相继发表声明,呼吁政府采取更透明态度,以证明他们的“清白”。但是根据此事件后续的爆料只能说他们越描越黑。


机遇1:国家层面

大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。

大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。

机遇2:企业层面

每个企业都可能拥有大数据,但是并非每个企业都能成为大数据企业。对于企业而言,大数据实质上是一种管理思维,其支点在于业务信息资源与社交媒体的融合,以及企业内外部信息的融合,在这样的支点上反思企业的组织形态、运作范式和价值创造模式,是企业运用大数据的真正内涵所在。

机遇3:对个人层面

中国是人才大国,但能理解与应用大数据的创新人才一直是稀缺资源。

从知识结构升级的角度来看,不论是否处在计算机行业,学习一定的大数据、人工智能技术,对于未来的发展还是很有帮助的。

既然大的社会发展趋势无法扭转,那么就应该积极拥抱新技术,从而抓住新技术所带来的新机遇。

虽然当前消费互联网时代的用户增量红利已经逐渐结束了,但是大数据时代的红利期才刚刚开启,所以当前学习大数据相关技术也是顺应时代发展的选择。




编辑:研究所新媒体