大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据分析通俗的讲就是将海量混杂的数据,通过利用各类手段统一协调成一个有机整体,然后以不同的可视化分析工具直观呈现给用户,让其通俗易懂的发现数据中的一些关键因素点。以保障相关人员提升工作效率及分析数据核心指标,并且为企业带来收益价值点。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
来源网络
大量化Volume:非结构数据的超大规模和增长,总数据的80~90% ,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。IDC预计到2020年,全球将总共拥有35ZB的数据量。
很多人日常用到或者了解到的仅限于bit、Byte、KB、MB,其实在其之上还有更多维度的统计,例如:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:
举一个例子:
一般情况下,大数据是以PB EB ZB为单位进行计量的:1PB相当于50%的全美学术研究图书馆藏书的信息内容;5EB相当于至今全世界人类所讲过的话语;1ZB如同全世界海滩沙子数量总和;1YB相当于7000位人类体内的微细胞总和。
大数据可以实现的应用可以概括为两个方向:一个是精准化定制;第二个是预测。
精准化定制定制可根据不同业务需求进行设计开发,通过数据去解决一些行业应用难点,例如:智慧城市、可视化大屏、警务大数据、金融大数据等,更多居于toB领域。
而预测类:比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。会利用大数据推荐算法等模型来进行推送。再比如精准营销、百度的推广、淘宝的喜欢推荐,或者你到了一个地方,自动给你推荐周边的消费设施等等。头条新闻信息推荐等等,更多趋向于toC领域。
图片源于神策
人物画像分析,通过对人物的准确、全方位的刻画,深入挖掘其数据间的内在关系,将零散杂乱的信息组织成有机整体。快速分析出人物的各类属性指标:身份信息、行动轨迹、经济情况、活动偏好、等级划分等,有效地利用分析结果,发现关键数据指标。
数据聚合针对内外部数据进行多维数据快速汇聚。可通过实时接口、文件自动导入、主动查询等方式接入。并可对各类格式的数据进行智能清洗入库。
汇聚时,需要对各类来源数据进行精准提取:例如利用一些智能终端采集设备,提取入库后,对海量数据进行快速的清洗处理,将其以结构化数据、非结构化数据、半结构化数据为主体划分,而后进行标签化划分,利用图数据库赋予其不同标签,再下发到具体分析的人事物中,以多样可视化分析图表的形态直观展示数据结果。
可视化分析可通过利用不同的分析工具,以关系图、时序图、位置轨迹、词云、时光轴、画像分析、可视化大屏等可视化方式进行分析。(针对不同的需求,可利用将多个工具结合进行全维度数据分析)
数据分级保护针对数据在应用时进行分级和脱敏过滤,保障数据安全。从数据提取、清洗、入库、分类、标签化并具体到人事物环境进行层层加密处理,保障全流程安全。
具体可分为:数据安全、应用安全、环境安全等方面。
传统分析/商业统计:
Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。
以上几种软件属于传统性的数据统计软件,此处不做过多的解说。要进行具体的数据汇聚并且可视化展示还需要利用一些可视化工具软件,如下:
Echats:
来源网络
当前接入是免费形式,通过选取不同的可视化工具类图展示符合业务需求的类后,进行数据的呈现,由于非矢量关系图标化,若数据过多时会存在前台渲染加载卡顿情况。
Highcharts:兼容 IE6+、完美支持移动端、图表类型丰富、方便快捷的 HTML5 交互性图表库。
来源网络
会有部分收费对接资源,基本展示与Echat相近,界面体验更友情化。
AntV:
GraphinStudio 是基于 Graphin 开发的通用关系分析平台,具有关系扩散,关系发现,布局切换等功能。
来源网络
相对来功能展示更强大,可以支持不同图形标签选择,关系属性关联,更加灵活的展示分析结果信息。
通过图表形式展现数据,帮助用户快速、准确理解信息。准确、快速是可视化的关键。借助于图形化手段,清晰有效地传达与沟通信息同时对数据进行交互分析。
(1)柱形图
通过柱状图,可以清晰展示各个数据类型的统计数据信息,并且可以直观进行对比,发现趋势
来源网络
适合的数据:一个分类数据字段、一个连续数据字段。
功能:对比分类数据的数值大小。
数据与图形的映射:
适合的数据条数:根据页面大小灵活设计,建议不超过1个月数据区间。
(2)散点图
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
来源网络
适合的数据:两个连续数据字段
横轴可展示具体的时间维度区间或者不同的属性描述,纵轴可展示数据量的多少。不同类别可以不同色块进行区分。
备注:可更具实际情况对点的形状进行分类字段的映射。点的颜色进行分类或连续字段的映射。
用户画像: User Profile用户画像是通过搜集和分析用户行为喜好、静态属性信息和消费习惯信息等数据,将用户的特征信息抽象化的进行展示。
用户画像的标签表征用户的兴趣、爱好、习惯特点,为标签计算权重来表示用户对标签特征的需求程度,使用户的特征得到量化。更多区域用户消费行为的分析统计,可预判用户的消费特性,通过数据分析结果来帮助运营人员抓住用户消费痛点。
来源网络
推荐系统有很多中,其中有一种是用户画像的用处,即利用用户画像做个性化推荐、广告推荐、活动推荐、内容推荐等。利用相关的算法,可以帮助其广告精准推广营销,精确推送给用户其所喜好的阅读信息等
像今日头条有自己强大的算法模式:
来源网络
来源网络
上图为可视化大屏展示,其中可针对不同业务需求进行定制化开发:(可用于企业高端效果展示,关键数据指标可视化展示,工作汇报总结,领导检验等)
此次是对大数据认知的一个较为宽泛的阐述,后续会进行各个模块的细化说明。其实数据总是与我们息息相关,通过大数据是为我们提供一个有效的手段来使得各类价值信息呈现更为明确。大数据离我们并不遥远,仍需不断地去探索与发现其潜在价值与意义。
本文由 @ Leon 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议