深圳商报·读创客户端首席记者 陈小慧
从今年8月开始,中国科学院深圳先进技术研究院(以下简称“深圳先进院”)云计算研究中心副主任王洋几乎每周都会到深圳市广道数字技术有限公司(以下简称“广道数字”)“打卡上课”,而“听课”的学生既有该公司员工,也有深圳先进院的博士生。
广道数字董秘赵璐告诉记者,今年8月,深圳先进院与广道数字签约成立“大数据AI技术创新联合实验室”,“这是我们专门为联合实验室打造的办公室和实验场地,方便企业和深圳先进院两边人员随时交流,加速系统研发和成果落地”。
据王洋介绍,联合实验室将利用“AI+大数据”技术,围绕“湖仓一体与智能计算”“公安政务知识图谱构建分析优化”“工业场景安全生产机器视觉”三大领域展开技术研发,有效解决企业在数字化转型过程中遇到的数据治理问题以及公安政务和工业生产等垂直领域的应用决策问题。
AI助力挖潜大数据价值
当前,数据驱动的人工智能正在改变着各行各业,“AI+大数据”成为当下的热门话题之一。一方面,大数据可以为AI技术提供训练数据支持,另一方面,AI技术也可以通过算法来提取大数据内涵的价值。
“‘AI+大数据’已经成为企业从数字化向数智化发展的必然选择。”赵璐表示,乘着这个“风口”,广道数字希望把AI技术和大数据技术结合起来,去助力企业的数字化转型,“了解到深圳先进院的先进计算与数字工程研究所有这方面的技术积累,我们也有应用场景,于是就‘一拍即合’了。”
未来,在双方合作的过程中,深圳先进院将发挥自身科研优势,快速提升广道数字的技术水平和产品竞争力,广道数字将根据自身多年积累的产品化经验和数据资源,为深圳先进院提供更加丰富的应用场景,实现双方优势互补。
那么,“AI+大数据”将产生何种“化学反应”?
王洋表示,两者结合将有助于更好地挖掘大数据的价值,实现数据高效应用。“企业做数据治理的最终目标是为了挖掘数据价值,并非只是简单存储。从这个角度来说,AI为大数据的价值挖潜提供了极大的助力。”
在他看来,大数据技术和AI技术是相辅相成的。大数据技术的侧重点之一在于把“数据管好”,包括如何把各业务系统产生的数据集中高效地存储起来、如何保证这些数据的质量、如何做好元数据与数据资源目录的建立等等,主要是帮助数据使用者可以清晰明了地了解企业有哪些数据,以及数据的含义等等;而AI技术则侧重于“把数据使用好”,包括如何让计算机在数据中提炼出主要内容、如何建立业务的知识模型等等。
“‘AI+大数据’主要是帮助企业的业务部门或决策部门更好地发现数据之间的规律,联合实验室是从数据治理的完整过程来审视大数据技术和AI技术的,最终是让技术服务于企业的业务与发展。”王洋说。
“湖仓一体”打破大数据孤岛
企业数字化转型,往往需要存储和处理大量的数据。如何以高质量的数据治理激活数据要素潜能、释放数据要素价值,成为企业数字化转型过程中亟需解决的问题。
随着科技的发展,数据的保存形式已经从传统的文件和数据库技术,发展到现在的数据湖、数据仓库技术。数据的存储介质和架构发生了翻天覆地的变化。目前,大数据存储与管理的主流架构有数据库、数据仓库、数据湖三种。
其中,数据仓库和数据湖两个常用的架构各有优劣。数据仓库将分散在各个应用程序中的数据复制到一个独立的物理位置中,因此可以存储更多的数据,具备更高的SQL(Structured Query Language,结构化查询语言)并发访问性能,极大地方便了企业保存业务历史数据,但却难以进行规模扩展以及难以支持保存评论、图片、音视频、传感器数据等更复杂的数据类型;而数据湖技术可以用较低成本,以可扩展的方式保存结构化和非结构化的所有数据类型,并且文件格式是开放的,有利于机器学习进行数据建模和应用,但却没有数据仓库所拥有的高性能、高并发优势,也无法实时处理数据。
目前,很多企业不得不在内部建立了多种数据存储结构用来存储数据,当需要低成本存储数据时,企业就把数据迁移到数据湖中,当需要对数据进行实时分析时,又把数据湖的数据复制到数据库中。
“久而久之,两者就出现了割裂,形成‘一湖多仓’的管理架构,导致数据孤岛和数据沼泽等现象。”王洋说,传统的大数据处理平台通常将数据存储在数据湖和数据仓库中,分别用于存储原始数据和经过加工处理的数据。
那么,“AI+大数据”如何打破数据孤岛,助力企业数字化转型?联合实验室将聚焦“必杀技”——湖仓一体。
“‘湖仓一体’的数据处理与存储架构,可实现数据湖和数据仓库一体化,使得原始数据与加工后的数据可以更加高效流动和交互,既可以同时存储结构化和非结构化数据,也具备实时处理数据、支持用户的BI(Business Intelligence,商业智能)、AI以及DS(Data Segment,数据段寄存器)应用对数据访问的需求,提升数据的利用效率。”王洋介绍道。
打造数字化转型“底座”
“事实上,‘湖仓一体’本质上是一个大数据存储架构,类似于一个高级的‘数据库’。”王洋说,当有企业尤其是中小企业数字化转型需要数据治理的时候,就可以用上这套技术架构和解决方案,“从某种程度上来讲,我们提供的是‘数据底座’支撑。广道数据湖仓作为这个底座,在创新性上有自己的独到之处,我们针对中小企业数据治理的特点以及他们对AI技术的需求,也许是首家将数字对象技术引入湖仓数据治理之中的公司,提升湖仓内与湖仓间的对AI智能计算的支持,相信这一创新路线将为广道数据湖仓的应用场景带来无限想象。”
有了这套“AI+大数据”赋能的“底座”,许多数字化转型的应用场景都可以直接“套上”。比如在工业园区,通过开发和优化机器视觉技术,基于湖仓底座可以对工业场景中的图像和视频数据进行智能分析和监测,例如产线的运行情况、工人的工作状态等等,进而提升工业安全生产的效率和质量。
不仅如此,王洋诉记者,未来随着技术研发的进步,联合实验室将在更多领域发挥作用。“比如金融领域,大数据和人工智能被广泛应用在风险评估、欺诈检测、交易分析、个性化推荐等金融业务中。特别是在此过程中,广道湖仓将通过支持联邦湖仓的概念,实现湖仓间(Inter-Lakehouse)的协同AI智能计算,将基于湖仓一体的AI应用深化到一个更高层次。”
从产业链角度来看,这一技术的研发也将助力深圳“20+8”产业集群发展。
“‘数据库’是我们在信息化建设和数字化转型过程中势必要用到的基础软件,也是深圳‘20+8’产业集群政策中‘软件与信息服务产业集群’重点规划需要突破的问题。”王洋表示,“湖仓一体”未来可能会成为替代现有数据存储架构的方案之一,联合实验室的成立将有助于“湖仓一体”在核心部件上实现自主研发和国产替代,为基础软件的国产化贡献一份力量。
据了解,联合实验室目前已经完成了相关项目的技术预研与可行性分析,正在进行关键模块的研发。未来,联合实验室的研究成果将会应用在各行各业的数字化转型过程中,为企业在转型过程中的数据治理环节提供相关产品和工具,主要包括结构化与非结构化数据汇聚与存储管理、数据质量管理、元数据管理、数据分级分类、数据建模与数据开发、数据可视化呈现等场景。