专访开源大师陆首群:中国开源发展需追求突破性创新

发表时间: 2023-07-03 16:40

嘉宾 | 陆首群教授

采访 | 王一鹏

作者 | 凌敏

开源概念最早可以追溯到 1970 年,这一年也是“UNIX 元年”。1985 年,Richard Stallman 发表《GUN 宣言》,吸收“前 UNIX”和 BSD 的开源成果,开发推出 Emacs 编译器等自由软件(Free Software)。同年,自由软件基金会(FSF)正式成立。1991 年,Linus Torvalds 在 Minix 和 GUN 成果的基础上开发了 Linux 操作系统(Linux 0.01)。

世界开源的发展史,正是由 1970、1985、1991 年这三个里程碑时间节点组成。

而中国开源的发展史,则由 1991、1999 年这两个里程碑时间节点组成。

1991 年,中国与 AT&T Bell labs USL/USG 合作,引进 UNIXSVR 4.2 版本源代码,并发布了中文版本,合作组建了中国 UNIX 公司。1999 年,中科红旗、中软网络在引进 Red Hat 公司 Linux 发行版的基础上,分别推出了最早的 Linux 中文版本。

至今,中国开源已经发展了 32 年。

这 32 年的开源发展大致可以分为三个阶段:

  • 第一阶段,主要围绕企业产品的操作系统及其生态建设;
  • 第二阶段,主要结合研发基于开源的深度信息技术(如大数据、云原生、区块链、人工智能等)及其应用;
  • 第三阶段,在经济双循环基础上规范建设或改造我国的供应链并主要在促进产业链、供应链数字化的基础上,采用取代物料表格式样的开源代码,保障其安全。

回首过往,中国开源发展经历了怎样的艰辛历程?开源概念发生了哪些变化?立足当下,中国开源发展如何寄希望于创新?与国外相比有哪些优势与不足?展望未来,如何让中国开源发展得更好?开源软件商业化路径有哪些探索方向?

近期 InfoQ 专访了开源泰斗陆首群教授,以期找到上诉问题的答案。

陆首群教授是我国信息化的开拓者和实践者,同时也是我国开源运动的倡导者和推动者,近年来又亲力亲为参与基于开源的深度信息技术(云原生、大数据、区块链等)发展的讨论及点评,并推动其发展,几十年来为信息产业发展和开源兴起做出了重要贡献。

近日,陆首群教授出版了新书《开源创新:数字化转型与智能化重构》,这本书汇聚了陆首群教授在过去 29 年来的文章、报告、谈话、评论等数十篇作品,不仅详细展示了中国开源事业的发展历史和未来走向,也生动记述了陆首群教授在这一历史进程中的实践、观察和思考。

陆首群教授提到,如今开源已经成为全球的一种创新和协同模式,成为创新国家的战略需求。人们更加重视开源的溢出效应:开源创新已成为数字化转型、智能化重构的基础。从围绕企业产品的操作系统及其生态建设到结合研发基于开源的新一代信息技术及其应用,再到在经济双循环基础上规范建设或改造我国供应链,促进供应链数字化、开源化,中国开源的发展在经历了三个阶段后现已进入世界先进行列。

以下为本次访谈视频实录和精华文字整理,经 InfoQ 审校和编辑:


开源创新已成为数字化转型、智能化重构的基础

InfoQ:首先祝贺您出版了新书《开源创新:数字化转型与智能化重构》,这本书串起了中国开源发展的重要历史阶段,您此前提到写这本书的契机是要把开源的观念给大家讲清楚,现在在中国发展开源,布道是大家当前的主要工作吗?

陆首群教授:布道还是很重要的,特别是要让大家清楚开源的概念,清楚开源和大数据、区块链、云原生、人工智能这些深度信息技术是如何结合在一起的。

InfoQ:您在《开源创新:数字化转型与智能化重构》中提到,开源创新已成为数字化转型、智能化重构的基础,具体应该如何理解?

陆首群教授:中国作为一个创新国家,要追求真正的创新,即 0 到 1 的爆发性的创新,而不是 0 到 0“八宝粥”式的假创新。

所谓零到一的创新,既要以模拟未来的信息社会(比工业社会高一个社会发展架构)进行构建虚拟空间中的“载体、资源、动能(作用力)等要素,作用于现实的工业社会(比信息社会低一个社会发展架构)中被考察的物理空间中的业态(生产的、经济的、社会的),促使其发生零到一爆发性的变化,即促使其数字化转型或智能化重构的变化。

我在《开源创新:数字化转型与智能化重构》中讲到的真正的创新,是建立在现代创新引擎:互联网基于知识社会创新 2.0 之上的,它也是开源创新的理论基础

另外,未来的信息社会与现实的工业社会是不同的社会发展架构,而数据、信息、知识、智能只能是同一社会发展架构(信息社会)中的不同发展阶层,它们更多的是反应同一社会发展架构中的共性。

InfoQ:您在书中提到,有专家认为,“中国开源软件的发展要寄希望于创新”,现在有一种观点是“云原生是促进开源软件创新的新变量”,您是否认同?在云原生时代,开源软件的发展会呈现哪些趋势?

陆首群教授:对于有专家认为“中国开源软件的发展要寄希望于创新”这句话,如果将“开源软件”改为“开源”则更好,因为如今开源概念的内涵已经超越了开源软件。

云原生是容器化的云计算+有效的 Kubernetes 编排调度,也就是说,“云原生是促进开源软件创新的新变量”这句话没有错,但在我出版的新书中重点讲述的是:“基于开源的深度信息技术的发展和应用促进了开源创新”,而深度信息技术包括大数据、云原生、区块链、人工智能等,不仅是云原生这一项。这是为迎接世界第四次工业革命做准备的,也能反映开源在创新时代的发展趋势。

30 多年后,再看中国开源发展

InfoQ:您在上世纪 90 年代就接触到了开源,从最初接触开源到现在,您对开源的理解是否发生了变化?那时的开源和现在有何不同?

陆首群教授:30 多年前开源的理念,原则上与今天并没有大的出入,只是得到进一步发展了。

从开源概念内涵演变的维度看开源发展的变化:在上世纪 70 年代开源发展的早期,开源就是开源软件;在上世纪 80 年代的创客时期,开源的概念是开源软件+设计规范;如今,开源的概念已发展到开源硬件,如 RISC-V 指令集(CPU)架构就是开源硬件,这时开源概念内涵已发展到开源软件+开源硬件+开源技术+开源生态。此外,在广义角度上,开源概念内涵也发展出了开源社区、开源基金会、开源许可证、开源标准,以及开源文化、开源教育、开源基础设施、开源经济、开源治理等。

从中国开源发展阶段的维度看开源发展的变化:围绕产品操作系统及其生态,解决“缺芯少魂”短板;围绕基于开源的深度信息技术(大数据、云原生、区块链、人工智能等)发展与应用,为第四次世界工业革命做准备;围绕开发/编制开源软件供应链以保障其安全,并保障其上游的网络安全,国家关键基础设施的安全。

InfoQ:您在书中提到,世界开源的历史始自 1970 年开启的“前 UNIX”,距今 53 年,但我国的开源发展始于 1991 年,起步较晚。作为后来者,我国在早期推广开源文化时是否会遇到一些困难?我国在推广开源发展的过程中,有哪些值得总结的经验?

陆首群教授:1970 年是 UNIX 元年,也是开源实质上诞生之日。但向全球提出与传播开源(OpenSource)概念是在 1998 年 4 月 7 日,由 18 位自由软件运动领袖在美国加州 Palo Alto 召开的 FreeWare 交流会议上决定的。

中国的开源发展起步较晚。1991 年,中国与 AT&T Bell labs USL/USG 合作,引进 UNIXSVR 4.2 版本源代码,并发布了中文版本,合作组建了中国 UNIX 公司。1999 年,中科红旗、中软网络在引进 Red Hat 公司 Linux 发行版的基础上,分别推出了最早的 Linux 中文版本。

早期这些版本具有很强模仿的痕迹,自主性落弱。围绕两家公司发展起来的一批开源企业,早期人才短缺、资金落弱、经营能力不足,严重依赖政府扶持,虽然发展十分缓慢,但还是顽强地茁壮成长。

总结起来,要想让中国开源发展得更好,需要先做好开源布道,让大家清楚开源本身的概念、发展历程、安全合规等。此外,还需要做好开源人才培养,培养既懂开源技术,又懂开源法律法规的两栖人才。

InfoQ:中国开源力量正逐步进入国际视野,有数据显示,目前中国开源贡献者占全球 9.5%,中国开发者主导的开源项目占全球 12.5%,这些数据释放出了哪些信号?当前国内的开源发展水平是否符合您的预期?和国外相比,我们有哪些优势与不足?

陆首群教授:近年来,中国开源发展得很快,总体发展水平已进入世界先进行列,如果说美国处于第一梯队,那么中国与西欧/北欧同处于第二梯队。中国在开源发展中最大的优势是,从 2016 年开始,我们先后无偿聘请了 60 位国际开源领袖和资深大师担任我们智囊团的高级顾问,从而建设了开源高地、创新高地、科技高地、人才高地(这件创举引起了美欧竞相效尤),现在的问题是要充分挖掘开源高地的资源和潜力。我们在推动开源发展中的不足是发展不平衡,对开源的基础、普适教育做得不够。

InfoQ:最近几年,国内掀起了开源投资热潮,数据显示中国开源企业 2021 年融资额超过 52 亿元。从商业视角来看,开源软件商业化路径主要有哪些?

陆首群教授:从产品视角来看,有两种开源的版本:一种是社区版,将核心代码进行开源,完全开放,任何人都可以自由下载;另一种是商业版,在社区版的基础上进行二次开发,发布一个对开源产品可提供长期支持的版本。

从商业视角来看,开源软件商业化的主要路径取决于其商业发行版以及各种类型的商业模式:

  • 服务模式(开源免费,服务收费),比如订单服务(如 Red Hat)、云服务(持续交付按需分配,此外还有微服务、定租服务)。
  • 提成模式(开源软件与电信、产品合作,在其销售收入中提成)。

InfoQ:陆老您作为中国开源软件推进联盟名誉主席,曾经也担任过国务院信息化联席会议办公室常务副主任等重要职务,现在我们经常提到信创,很多开源商业化初创公司也希望能够进入国家信创名单,能和其他企业有同台竞技的资格,您对这些创企有什么建议吗?

陆首群教授:开源创企多为小企业,在推进开源商业化运营时,选择的商业模式比较单薄,所以表现的不够活跃。大公司由于实力雄厚,在推进开源商业化运营时,不为短期利益所限,进行长期投入以及生态运作,其商业模式选择性大、环境好、表现活跃。

信创企业指的是有自主可控开发能力或潜力,自主率高,可做到替代国外垄断或禁运的技术或产品,主要表现在操作系统和 CPU 芯片领域,因此可以进入国家信创名单,国家给予扶持政策。

对于做开源商业化的初创公司而言,关键是如何建立自己的竞争优势,另外我们也正在研究建议政府放宽对初创公司创新的扶持政策。

从 ChatGPT 来看人工智能是否应当开源

InfoQ:能否讲讲您理解的 ChatGPT?ChatGPT 的出现会是智能社会形成的前提吗?

陆首群教授:人类很喜欢让计算机跟人来对话。机器能“翻译”人说的话,但目前还不够准确,所以在这种情况开发了 ChatGPT。大模型 ChatGPT 在研发过程中突然产生一种奥特曼认为令人不解的推理能力,而推理能力是赋予机器生成人类自然语言的基础,也是提升 ChatGPT 人工智能进入通用人工智能(AGI)的基础。举个例子,比如汽车,其实训练一个三四岁的小孩两三个月,他不管是红汽车、绿汽车、蓝汽车,他认为都是汽车,这是人类具有推理能力的思考。计算机可不行,绿汽车和红汽车是两码事,蓝汽车更是另外一回事。有好多推理的东西,计算机不识别,就卡在那里。这说明,计算机缺少知识的逻辑推理,得推理,要是把概念弄在一块了就推理不了了。

之前我们专门把全世界的资料收集过来研究人工智能,现在的人工智能在全球范围内都是一种弱人工智能,比如人脸识别、语音识别、自动驾驶等等,都是比较弱的人工智能。

弱人工智能向强人工智能怎么走?这个问题很大,我们讨论人工智能的发展时曾讨论过有四条路径可以通向下一代强人工智能:

  • 改进、创新、重塑机器学习/深度学习模型和算法,繁荣应用场景,拥抱开源,打破机器学习/深度学习黑盒子,实现可解释性。
  • 从研发基于异步脉冲神经网络的神经拟态计算系统出发,期望走上通向下一代强人工智能之路。
  • 采取数据、知识双驱动,立足于新知识工程,研发大规模语义网络(知识图谱)以支持实现认知智能。
  • 探索如何构建通用人工智能或第三代人工智能。

InfoQ:当前大家对“人工智能是否应当开源”这个话题持有两种相反的观点,有声音认为人工智能不应该开源,开源可能会导致模型被滥用,增加安全风险。但您之前在接受采访时也提到,“ChatGPT 不开源是说不过去的”,您能展开谈谈您的观点吗?

陆首群教授:我在《开源创新:数字化转型与智能化重构》中提到,开源是人工智能发展的基础

第一,开源支持人工智能技术突破发展瓶颈。2015 年美国人工智能四大巨头—Google、微软、Facebook 和 IBM 发现他们在人工智能的研发上遇到了发展瓶颈。为了突破瓶颈,它们纷纷将自己开发的人工智能技术(含框架、工具、引擎、平台等)全部实行开源,鼓励全球志愿开发者帮助开发、修复其源代码,或纠错打补丁。只有如此凝聚人才、集结大众智慧,才能达到突破人工智能发展瓶颈的目的。

第二,开源加速人工智能开发创新,协同建设生态和供应链。从 2013 年至今,百度持续研发自动驾驶与无人驾驶技术,并于 2017 年 4 月正式宣布实施开源 Apollo 计划,建立 Apollo 平台。在 Apollo 的 10 个版本中,百度拥抱开源,集结了全球 97 个国家的 4.5 万名开发者,开发了 60 万行开源代码;百度还协同全球 210 家合作伙伴(企业、大学、研究机构等),共同建设自动驾驶与无人驾驶的生态和供应链。如今开源已成为全球流行的一种创新和协同模式,而基于开源的人工智能将成为创新和协同模式的叠加成果。

再来看开源的两种发行版:

  • 在开源社区开发的围绕开源核心重点开发创新性能的开源发行版,开放开源、免费、可在网上自由下载。
  • 在企业持续开发开源产品的商业发行版,包括继承开源核心形成开源产品的核心层;开发工程化实现技术+商业模式,具有开闭源混合性质,形成开源产品的主体层;主体层对核心层起屏蔽作用,推出的商业发行版从外向内看是不透明的,相当于闭源的,并且是收费;推出对应商业发行版可避免原创技术损失和泄密,可形成规模化发行和产业。

这样要回答 ChatGPT 目前看上去似乎“不开源”就容易理解了。ChatGPT 现在不开源,是因为公共保障还没有完善,因为你真的要在市场上面宣布全面开源,还要做好多事情,法律、商业、技术的,现在还顾不上这些问题,但我估计它是肯定要开源的。ChatGPT 是基于机器学习的,机器学习技术是开源的,ChatGPT 不开源是说不过去的。

最近奥特曼在回复张宏江的提问时谈到:开源目前不是最佳路径。其实 OpenAI 本来决定 5 月 15 日将 ChatGPT 开源,最近奥特曼也说,我们已经开放了一些模型测试。近来,ChatGPT 的发展有可能超越人类,产生安全问题,如对其开源有可能被黑客利用攻击人类!所以奥特曼说,我们必须把安全作为未来研究中的重要部分,而且似乎有收缩开源的举措。

最近我们正在举办国际开源峰会,与会的几位开源大师说,如果要解决 ChatGPT 未来发展中的安全问题,必须实行开源、透明。

InfoQ:最后,对于国内参与开源、投入开源和使用开源的人,您能给予一些寄语吗?

陆首群教授:我对拥抱开源,深耕开源的同仁和志愿者一直抱有同情和敬意!

采访嘉宾

陆首群教授,《开源创新:数字化转型与智能化重构》作者,中国开源软件推进联盟名誉主席,中国开源软件推进联盟专家委员会主任。1958 年毕业于清华大学电机系电器专业。作为组织者和领导者,长期致力于推动我国互联网和信息化建设以及开源运动的发展。