深算院创新之举:精简大数据,大企业轻松驾驭,中小企业负担得起

发表时间: 2024-03-28 00:14

人工智能所掀起的产业变革仍在继续。2024年政府工作报告提出,要“制定支持数字经济高质量发展政策”,“开展‘人工智能+’行动”。数据、算力和算法是发展人工智能的三要素,如何实现三者的高质量发展,将“AI+”加速形成新质生产力?

去年11月,深圳计算科学研究院(简称“深算院”)发布了自主设计研发的国产新型数据库系统YashanDB,实现了多项原创技术的突破和商用落地。深算院是深圳“十大基础研究机构”之一,以实现核心技术自主为己任,专注基础理论和关键技术研究,致力于打造中国原创的基础软件品牌。

近期,南都·湾财社推出《新质·中国造》栏目,深入千行百业,遍访湾区企业,解锁湾区新质生产力,共探高质量发展之道。本期对话深算院YashanDB首席技术官陈志标,探讨国产数据库如何实现创新突围,抢抓数字经济时代的新机遇。

陈志标表示,随着大数据、云计算等数字化技术的飞速发展和广泛应用,越来越多的企业开始依赖数据支撑业务运转,数据应用场景也随之增多。而让大企业用得好大数据,让中小企业用得起大数据,才能真正助力企业充分释放数据价值、激活产业发展新动能。

如何应对AI时代所面临的算力挑战?

南都·湾财社:数据、算力和算法是发展人工智能的三要素,深算院做了怎样的前瞻性布局?

陈志标:今年,政府工作报告中首次提及开展“人工智能+”行动,人工智能产业发展提升至国家战略的层面。数据是人工智能发展的基础性战略资源,深算院重点围绕“数据”领域,针对当前面临的一些重大挑战进行技术攻关,致力为人工智能的长远发展打牢基础、夯实根基。

首先是海量数据带来的计算挑战。面向人工智能和数字化浪潮带来的海量数据,为了突破数据库系统的能力边界,深算院基于原创的有界计算理论,真正做到使用小资源实现大数据实时分析,即“大数据变小”,节省大量传统计算算力。深算院YashanDB在工程应用中融入这一理论研究成果,经实测,面向从10GB增长到1TB的不同规模数据量,YashanDB实现响应时延维持亚秒级,性能提升千倍以上且未衰减,极大地节约了计算资源,为AI时代所面临的算力挑战带来新解法。

再者是数据质量方面的挑战。高质量数据是释放人工智能的价值的前提,如何用自动化的技术手段提高数据的准确性、公正性和健壮性是当前学术界和工业界的研究热点。数据作为AI模型的“燃料”,训练语料质量、多样性和完备性变得愈发重要。基于此,我们一方面通过数据采集与分类、数据清洗、数据合成与扩充,以形成领域模型和高质量语料库;另一方面,当大模型应用在某个特定的领域和任务进行微调时,基于已积累的领域模型和高质量语料库,我们提出一种基于模型驱动的迭代框架,进一步提升下游模型的“纠错”能力,从而实现性能提升。

最后是数据多样性挑战。面对来源多样、格式复杂的数据,如何消除不同模态数据之间语义上的鸿沟快速进行整合和计算是另一个难点。当前主流方案考虑将数据按原始形态保存,在必要时通过转换统一为关系数据再做分析,这类方法需要转换大量无关数据,难以支撑数据的快速变化。针对多模“间接计算”模式的实时性难题,我们做了一些新的尝试——基于语义实体连接,实现关系表中元组与图数据中节点的对应,这样可以针对特定实体进行跨模计算,以“直接计算”代替“间接计算”,提升分析效率。

破解中小企业大数据应用门槛高的难题

南都·湾财社:数据已经被列为重要的生产要素,在您看来,如何激活大数据在产业发展中的新动能,释放新质生产力?

陈志标:随着大数据、云计算等数字化技术的飞速发展和广泛应用,越来越多的企业开始依赖数据支撑业务运转,数据应用场景也随之增多,让大企业用得好大数据,让中小企业用得起大数据,才能真正助力企业充分释放数据价值、激活产业发展新动能。

虽然大企业已经建立了较完善的数据管理体系,但在整个数据利用方面还存在一些障碍,例如原始数据质量不高、数据共享不足、价值未被充分挖掘等等;那对中小企业而言,受限于预算和技术团队等现状,最显著的问题是数据的使用门槛很高,无法享受大数据赋予的红利,例如在大数据环境下处理PB级甚至是EB级数据对算力的要求十分高,这让大多数中小企业对大数据计算依然可望而不可即,也会导致数字鸿沟的进一步扩大。

要进一步释放产业发展中的数据价值,一方面,基础设施安全是企业用好数据的底线,数据库等基础软件系统作为关键基础设施,必须实现安全可信和持续演进,才能支持各行业在产业升级和转型过程中的需求;另一方面,从数据的存、算、管、用全链条助力企业更简单地管理数据,通过提供一站式数据管理解决方案,让用户简化学习及运维成本,能够聚焦在业务创新,充分将数据要素转化为生产力。

更为重要的是,中小企业对我国GDP的贡献高达60%,如何破解中小企业大数据应用门槛高的难题更是激活产业的关键。针对海量数据计算成本过高的问题,我们致力于重新构建一套资源受限下的大数据查询处理框架,把大数据变小,让资源受限的中小企业也能享受大数据带来的便利。

以数据为中心的新型数据管理技术或将成为重要方向

南都·湾财社:我们看到数字经济的浪潮风起云涌,人工智能的发展也进入大模型时代。站在您的角度,也可以结合深算院的发展情况,谈谈感受到一些时代发展的机遇或者说风口?

陈志标:如果说数据是数字经济时代的“石油”,那么数据管理就好比“发动机”,共同构成了面向千行百业的核心能力。在海量数据供给、活跃创新生态和巨大市场需求的多重推动下,尤其随着AI大模型的快速发展,必将催生新的市场和更多应用场景,企业创新创业势能将持续增强。

与此同时,随着新应用场景的涌现,对数据质量、数据多样性、数据处理的新鲜度和融合性等提出了更高的要求,这也将给数据管理带来更多挑战。基于传统计算模式开发的产品难以应对庞大的计算体量、解决计算复杂性等问题,因此以数据为中心的新型数据管理技术或将成为重要方向。

深算院作为新型科研机构,致力于打破一直以来存在的理论研究与工程转化之间的鸿沟。秉承“理论和系统并重”的初衷,我们坚持从0到1的基础软件开发,具备从产品定义、代码实现到质量保障端到端的工程实现能力,目前已开发从理论到工程全自研的崖山、采石矶、钓鱼城三款战略性基础软件系统并实现落地应用。

以数据库领域为例,作为现代信息技术领域的三大核心基础之一,数据库是数字经济的重要底座。深算院全自研的崖山数据库系统YashanDB,就是将原创理论突破与成熟工程化能力有机结合的产品

未来,我们将继续深化与学术界和产业界的协作关系,不断扩宽“朋友圈”,携手更多行业伙伴探索新场景的底层技术国产化应用,打造关键行业国产化的标杆示范,助力加快实现IT系统全面自主创新,共同构建一个稳健、繁荣的大数据与数据库产业生态。

南都调研 总第231期

采写:南都·湾财社记者 程洋

IC供图