大数据与大模型:是否意味着数据分析师的终结? | 近匠

发表时间: 2023-09-20 18:16

【CSDN 编者按】Apache Kylin 商业化后的第七年,韩卿不再公开去谈开源商业化的问题,因为开源早已成为 Kyligence 的“引擎”。当他发现人机交互方式出现革命性变化的时候,就意识到不能再用过去的眼光看待数据领域的问题。在AI“入侵”大数据领域的关键时刻,他有了新的拼搏方向。


受访嘉宾:

韩卿,Kyligence 联合创始人兼 CEO、Apache Kylin 联合创建者及 PMC Member、开源大数据 OLAP 的领导者、首位来自国内 Apache 软件基金会顶级项目 VP、微软社区技术总监、腾讯云最有价值专家(TVP)、金融科技创新联盟理事兼智库专家、上海大数据联盟理事成员、中国互联网协会数字金融工作委员会委员。


作者 | 何苗
出品 | CSDN(ID:CSDNnews)

韩卿,中国开源项目商业化最早一批“吃螃蟹”的人。骨子里有一种力争上游的冲劲儿,在拥抱 AI 这条路上他认为:“不创新就会被淘汰,不做就会落后”。

作为中国第一个 Apache 顶级开源项目 Apache Kylin 背后的商业公司,Kyligence 在商业化之路上走得又稳又快。得益于韩卿的敢想敢干,也少不了能帮他将梦想落地的好搭档——联合创始人兼 CTO 李扬。作为 Kyligence 的两大支柱,他们一动一静,带领着企业在七年内狂奔,成为金融、制造、零售、医药等行业背后的技术中坚力量。在AI 重塑各行各业的重要转折点,又率先在大数据领域落地了 AI 应用。

左 韩卿,右 李扬

据韩卿透露,Kyligence Copilot AI 数智助理从构思到落地,不足半年时间。是因为卷得够狠吗?并非如此,更多是一种久经积累,量变产生质变的自然转型。他一直在努力将专业化的工具平民化,AI 浪潮让这一目标找到了更为自在的出口。

大模型与数据应用的结合会遇到哪些机遇与挑战?坐拥 OLAP 引擎+指标平台+Copilot “三驾马车”的韩卿将带领 Kyligence 走向何方?本期《近匠》邀请到Kyligence 联合创始人兼 CEO 韩卿,详述大数据拥抱AI的机遇与挑战,以及一位仍然饱含热情的创业者,如何开启自己的转型之路。

AI “入侵”大数据,将专业化的工具平民化主旨不变


《近匠》:上半年火热发展的大模型给大数据行业带来了哪些变化?你深耕行业多年,认为有哪些是不变的?

韩卿:这一波AI浪潮带来的最大变化是人机交互模式的变化。过去,人们使用数据要靠专业人士,管理者想要看指标要委托专业的程序员或者是工程师,交互模式是层层转包。如今以 AI 技术为放大器,诞生了许多新的效率工具,在数据领域也是,这是革命性的变化。

自然语言交互技术发展了几十年,已经到了量变引起质变的时刻,这背后是技术的积累。一方面,算力成本在下降,另一方面,大模型算法本质上并不复杂。数据+算力,大力可以出奇迹。

我们“把复杂的数据问题简单化,把专业复杂的工具平民化、简单化”的坚持一直没变。同时,所有企业的整体运营思路、管理公司的本质并没有改变,仍然是提升效率、降低成本。

《近匠》:面对这一波AI革命,你有哪些新想法?

韩卿:当我发现人机交互方式出现革命性变化的时候,就意识到不能再用过去的眼光看待数据领域的问题。我一直在琢磨AI怎么能够改变这个行业。这些年,我们一直在做数据服务,将标准化的产品结合新交互方式会产生什么化学反应?这就很有趣了,后来就一步步有了 Kyligence Copilot AI 数智助理(预览版)。

将专业化的工具平民化是我们一贯的做法。OLAP 引擎是很专业的工具,少部分企业才能用起来,我们以此为基础做成指标平台,大部分业务人员也能理解、能使用,再到现在的 AI 数智助理,几乎每个人都可以使用。

《近匠》:Kyligence 会做大模型吗? AI 数智助理的工作原理是什么?

韩卿:我们不会做大模型,但 AI 数智助理是基于大模型的应用。当许多人关注大模型时,我认为最重要的其实是怎么做应用,在数据和分析领域里,我们可能是商业化落地应用最早的一家。简单介绍一下它的技术原理。

AI 数智助理目前对接的底层大模型来自 OpenAI 以及一些开源大模型,考虑到国内的使用规范,在实际的企业接入中,一般有两个选择:基于开源的基础模型来做二次训练,或是采购国内的模型供应商,在此基础上做二次训练。目前,我们已经支持接入企业自有(私有)大模型,或者只需十行代码就可以将 Copilot 嵌入到企业自有应用中,非常方便。

一般对话大模型在回答的过程中存在很多不确定性,但 AI 数智助理的工作逻辑和传统语言模型不一样。它的指令执行是在一个受控的指标平台上回答数据问题,不是用语言模型生成的,这就消除了很多不确定性和安全方面的隐患。回答的问题也无法超越权限来获取数据,从这个角度来讲,用户的原数据很安全。

AI 应用落地六大难点从何突破?


《近匠》:先锋企业的需求最大也最复杂,但很多人对于将全部数据交给 AI 总会有疑虑,AI 应用在落地过程中可能会存在哪些问题?

韩卿:今年3月,AI 数智助理的原型就已经诞生,但一直按兵未动,因为一直没想清楚它能做些什么,会产生怎样的效果,所以希望找到一个突破口再倾尽全力来做。过去几个月与用户交流之后,让它有了新变化。用户其实更焦虑,所有人都知道 AI 一定会改变这个行业,如果行业先锋没有抢先使用好 AI,就会落后。而他们,不能落后。

但在实际落地中,还是会碰到以下难点:

第一,合规。能不能合规的使用是非常重要的。如今 Open AI 的大模型还不能给银行使用。

第二,安全。能不能把公司的运营指标、所有的数据放开让 AI 去处理,还存在太多的不确定性,这是整个行业的难题。

第三,内部文化的问题。每个公司都有自己的数据文化,一般来说创业公司的管理团队相对扁平化,氛围也比较轻松,但国企可能是另一种文化。不过这正是 AI 有机会改变行业的地方。

第四,问题对齐。怎样让 AI 理解你真正的意图也是一个行业难题。人类的表达常常口是心非或有言外之意,这就导致外部行为模式与本身的意图可能是相悖的,这也是机器处理起来的一大难点。

第五,如何让员工使用好 AI 工具。同一个问题的不同问法可能产生不一样的结果,因此还需培训提问方法。

第六,企业想要使用,却没有数据积累怎么办?数据成熟度到决定了能将AI数智助理发挥至多大的功效。巧妇难为无米之炊,数据基础比较好的企业,使用起来感受会更好。

此外,国内国产化的模型成熟度也是一大影响因素,期待能有更好的发展。

《近匠》:你强调 Kyligence 一直在降低用户数据使用门槛,但又提到企业想用好AI数智助理必须有一定的数据基础,这是个比较高的门槛。怎么理解其中的矛盾之处?

韩卿:这其实是我们常说的“边使用、边治理”的理念。过去,数据的使用门槛高,是因为需要企业先治理后使用、数据口径要对齐、数据要拉齐等等,而治理工作需要大量的人工投入,但现在 AI 可以替代这部分。同时我们的指标平台可以协助不同的公司建好一些常用指标,经过一两个月的使用,跑通之后,企业的共性就开始显现,再经由AI数智助理统一治理后反馈给用户,行业的模型就能逐步建立起来,这是AI对软件行业的改造过程。

《近匠》:你提到企业非常关心安全问题,在应用过程中,有哪些技术手段能保证用户的数据安全?是隐私计算,还是计算存储的隔离?用户的数据使用权限又该怎么分配和实现?

韩卿:简单来说,Kyligence 无法干涉用户数据隐私,借助我们的SaaS服务,AI数智助理的综合计算和用户的办公系统完全隔离。我们通过指定的跳板机访问系统,也要经过审批流程才能访问,并且所有动作都会被记录下来可供审查,这是最基本的构造。

AI数智助理的工作原理也很好理解,它接收一个指标查询的指令——例如在执行检索销售系统的时候,也会对指令发起者的权限检索,使用者无法获得自身权限之外的数据以及查询结果。

从技术上来说,要实现用户的数据权限管理也不难。在企业内部有基于角色维度的数据管控,比如,小张可以看到部门的指标,但小李看不到;也有数据力度维度的,比如上海的销售只能看到上海的数据,看不到其他地区的。

要完全解决企业的忧虑,最重要的是拥有国际权威鉴证,目前 Kyligence 产品已经通过 SOC2 Type 1、Type 2 ,ISO9001、ISO27001 等各项认证与审计,这是全球最重要的数据安全认证,我们的高安全性、高保密性及高可用性是有保障的。

“OLAP 引擎+指标平台+Copilot” 三驾马车驶向何方?


《近匠》:Kyligence 作为以开源起家的商业化公司,为什么如今较少谈开源?

韩卿:创业之初,我们的开源社区已经做得很好,后来尝试商业化,一直在探索自己转型之路。如今很少谈开源商业化,一方面是为了符合市场需求,一方面是因为在做企业服务。开源是我们重要的引擎,如果类比销售汽车,可以说我们现在销售的是“整车”,而“引擎”是由开源提供的。售卖整车以及4S店保险,这部分叫做服务。

《近匠》:同时研发三个不同系列的产品,企业的投入和产出如何衡量?

韩卿:创业公司永远要在“做好原来的事情”与“探索创新”之间找到平衡。就像我国在军事方面的策略,永远是“服役一代,研制一代,探索一代”。对我们来说,很难说这笔账到底如何,但我很清楚的是,不创新就会被淘汰,不做就会落后。一个创业公司如果固守成规,不往前走,必然要倒下。对我们的用户来说也是如此,追求新技术,试验新场景,互相开拓思路。

《近匠》:Kyligence Copilot AI 最大的价值是什么?

韩卿:它让 Kyligence 从一个技术公司开始走向真正的管理软件公司。我们过去提供工具,如今提供平台甚至管理方法论,是我们一直想做的事情。能够定义行业标准、定义行业未来,甚至领导行业变化趋势,这是创业公司或在行业深耕的公司应该做的。

《近匠》:这种转型面临哪些挑战?

韩卿:从技术软件公司到管理软件公司,对技术出身的我们来说,下一个难点在于管理知识还需实践和沉淀。

第二大挑战在于中国的企业管理相对粗放,与美、德等企业还存在较大差异。大量中国企业讲究“人治”,而西方企业的流程化管理做得更好。如何做好精细化管理与合规?我们并不能改变一个企业管理的方法,那么做一个好用的平台,提升企业治理效率与成果,是我们想做的事情。

《近匠》:在 Kyligence 的商业逻辑里,要聚焦于客户,而不是对手、市场,为什么?

韩卿:我一直在内部强调:“Focus on your customers not your competitors”。这句话在美国非常流行。行业有竞争,不必焦虑,关注竞争对手只会让你变得越来越糟糕,关注客户,他们会教你。

要保持自身竞争力,两点很重要:第一,产品的独特性和差异化。第二,壁垒的建立。如今我们的技术壁垒——专利数量不少。虽然Kyligence在金融、制造、零售、医药4个行业有着多年的标准化积淀,但真正的壁垒不在于技术,在于拥有中国最大的一批数字化转型先锋客户,他们同样处于各行业领先位置,渴望创新,所以商业化速度和体量都在不断增长。

未来数据分析师的两大转型方向


《近匠》:AI 对数据分析师的挑战很大,很多数据分析师日常工作就是做各种报表,会失业吗?未来转型的方向是什么?

韩卿:数据分析师的转型应该会非常快。一些人会转型成为提示工程师,认真研究指标,更加理解真正的业务意图。另一个转型方向是治理,如今企业数据往往存在口径不一致的问题,他们可以帮助业务统一指标口径,优化企业数据治理难题。

《近匠》:未来需要怎样的开发人才?

韩卿:从现在的 AI 发展来看,人才的变化外延已经扩大。以前的开发更多是写程序,更需要专业能力、计算机知识、深厚的技术背景。但是未来的提示工程师,不太需要会写程序,最重要的是能否提出正确的问题,问对问题,问题就解决一半了。这个社群会更大,再叫开发者可能就不合适了。


《近匠》是 CSDN 推出的访谈栏目,其意思即为「走近工匠」,走近深耕于开源、云、AIoT、根技术、数字化转型、前沿技术的工具创造者和技术管理者们,了解他们怎么看待现在的开发工作,分享自己精雕细琢出来的工具有何特点,剖析整个行业发展现状及未来趋势。


为此,基于开源、云、AIoT、根技术、数字化转型、前沿技术等领域,如果您及团队有报道需求,亦或者如果您有对技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(hanbb120,请备注投稿+姓名+公司职位)、邮箱(tumin@csdn.net)。



欢迎参与 CSDN 重磅发起的《2023 AI 开发者生态调查问卷》,分享您真实的使用体验,更有精美好礼等你拿!