随着我国大数据产业政策日趋完善、产业基础日益巩固、数据要素市场建设不断深化,大数据产业再次迎来巨大发展空间。在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。
今天我们来聊一聊“数据服务”这个关键词。
随着“数据二十条”的发布,数据要素被赋予了空前重要的地位,如何激活数据要素潜能,做强做优做大数字经济成为了各方关注的要点。数字经济的发展须依赖供给和需求的良性循环,数据服务作为连接数据资产运营方和数据消费者的关键环节,在数据要素市场化发展的过程中有着至关重要的作用。完善的数据服务体系能使数据更好地服务于具体业务,为数据消费者创造更多的价值,数据资产服务化也成为了必然的趋势。
数据即服务
数据即服务(DaaS)指与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。
简单来说DaaS形式的数据服务即是将用户需要的数据提供给用户,这里的数据可以是未经加工处理的数据,也可是加工后的指标和标签,用户得到数据后可根据自身的需求进行后续的分析挖掘等工作。这种方式的优点是可以让用户更加灵活地使用数据。DaaS形式的服务适用于技术实力较强的用户群体,在互联网、电子商务等数据密集型行业中,业务部门通常具备较高的数据分析、应用能力,数据中台以DaaS的形式支撑业务部门是最为常见的形式。如用户需进行多个外部数据源的联合分析,DaaS服务也是必备的服务形式。在轻量化的数据中台项目中,DaaS形式的数据服务通常也是建设方的首选。
DaaS服务需要两方面关键的能力:
1)数据目录:用户在获取数据前须确认哪些数据是需要的,这就要求数据中台运营方能够以用户友好的形式将数据相关的信息展示出来。数据目录即是将数据进行分类后,以目录的方式进行呈现,这样能够更好的体现不同数据的业务含义,辅助用户快速定位所需数据,用户可以通过查询的方式筛选数据集,并通过浏览元数据、探查样例数据等方式了解数据集的细节信息。
2)数据获取:由于用户所需的数据在体量、类型、敏感程度等方面均存在差异,数据中台通常需要提供多样化的自助取数服务(如下载,导出至目标库、目标工作环境,API传输等),供用户获取数据。对于周期性的取数要求,中台须支持数据的周期性推送。数据获取服务中的限制因素很大一部分是在安全方面,通常会依据数据的分级情况设定不同的权限审批流程、脱敏策略、传输安全策略等。
数据即服务的实现模式
数据服务的接口网关是数据Daas的实现模式。
在维基百科中,网关的定义是这样的:
在计算机网络中,网关(英语:Gateway)是转发其他服务器通信数据的服务器,接收从客户端发送来的请求时,它就像自己拥有资源的源服务器一样对请求进行处理。有时客户端可能都不会察觉,自己的通信目标是一个网关。
从定义可以看出,网关也是一组服务器,它位于客户端和服务器之间,是客户端请求进入服务器的唯一入口,如下图,API 网关提供几个重要的功能:
身份验证和安全策略实施;
负载均衡和断路;
协议转换和服务发现;
监控、日志记录、分析和计费;
缓存;
数据服务网关的背后是高质量的数据仓库。高质量的数据仓库通常具备以下几个特点:
弹性扩展:既可以基于自身组件实现弹性扩展,也可以基于S3实现云平台的弹性扩展。
并行计算:多核CPU并发执行,让计算更迅速。
数据映射:可实现对Oracle、Mysql、PostgreSQL以及人大金仓等国产数据库的远程操作。
支持近似计算:支持对数据的采样分析。
广泛的字典支持:如行政区划字典、IP库等。
支持数据压缩。
支持时序数据存储和计算(实时数据库)。
支持数据加密存储。