马越在开源中国:推动中国创新,提升全社会软件工程实力

发表时间: 2024-01-15 17:41

根据有关统计,中国目前约有1200万软件工程师和3.5万家软件和信息技术服务企业,相比之下2022年中国制造业就业人员约为2亿人、规模以上制造企业数量超过40万家。显然,想要迈向中国创造,实现数字中国的美好愿景,就需要不断提高这些工程师、软件信息技术服务企业、主要传统企业和广大中小企业的软件工程能力,用更高的软件生产力推动全社会的创新创造力。开源中国董事长马越在近期对话联想创投《科技瞭望塔》栏目时表示,开源中国在服务国内上百家大型企业客户时,发现尽管国内企业在过去20多年投入了大量人力财力进行信息化建设,但所开发的软件代码往往分散在各个项目组,无法形成统一管理、可重复使用的软件资产,更形成了数不清的“烟囱”,造成巨大浪费的同时,也阻碍了进一步的创新。因此,形成软件资产、对代码进行集中管理,以及在集中管理的基础上,高效提升软件开发效率与质量,就代表了更高的软件工程力,而代码托管平台就是现代软件工程的基础平台之一。

马越在2006年成为红帽JBoss世界创新奖的首位华人获奖者,此前在美国有长达十年的开源技术工作经验。2007年,马越回国投身到开源技术的推广普及以及用开源技术提升中国软件工程力的“宏愿”中。创业16年来,马越和他的朋友们一起开拓了国内的开源“荒地”:从国内第一家IPO的开源企业,到负债高达1.8亿,再到2023年完成了B+轮融资,融资额高达7.75亿元;从最开始替换“IOE”的开源解决方案,到专注于开源社区运营的开源中国,再到基于Git的代码托管平台和企业级DevOps研发效能平台Gitee。今天在Gitee上聚集了1200万开源开发者,Gitee成为中国第一、全球第二大开源代码托管平台……

经历了互联网与云计算的洗礼,中国的开源技术人员如今已经增长到800万-1200万人、位居全球第二,使用开源技术的软件企业占比近90%,国内开源基金会取得实质性进展,中国也成为重要的开源生态贡献国。而在数字中国和信创产业大趋势中,开源中国找到了一条兼顾社会价值和商业利润的开源商业之路,马越本人也从一个纯粹的开源技术人员成长为开源商业的职业操盘手,用开源技术“解放天下程序员”、“做天下开发者的大舞台”和“中国开发者的‘兵工厂’”等“宏愿”也正在一步一步接近现实。

开源中国不断打造更高生产力的软件研发效能工具和平台,为数字经济打下坚强基石。2024年1月,开源中国即将上线历经一年开发、自己的Hugging Face大模型社区,首批上线1000个大模型、5000多个数据集,全面进军大模型AI时代。在2024年,开源中国还将跟随中国“一带一路”大战略,将中国的开源力量推广到更多国家和地区。从中国制造到中国创造,开源中国不断提升全社会的软件工程力,为百年未有之大变局铸造新动能。

访谈内容精选整理:

联想创投:怎么看中美两国的开源社区和生态发展状况?

马越:从Unix算起,世界开源技术史已经超过50年,而开源技术在中国仅有20多年的历史。2007年我回国创业,当时国内对于开源技术还十分陌生,但随着2000年-2010年互联网的高速发展,2010年-2020年云计算的全面进展,特别是2015年以来云原生技术和人工智能技术的普及,开源技术已经在中国落地生根。互联网公司是最早使用开源技术的群体,开源技术更是云计算的基础,云计算也推动了从操作系统到数据库再到DevOps等全栈技术开源,2018年以来国际形势的变化更助推了国家对于开源技术的高度重视。截止到2023年,中国已经是全球第二大开源项目贡献国,中国开源开发者的数量也位于全球第二,开源技术已经成为数字经济的基石。

然而,我们不能盲目乐观。相比于Github和国际开源社区,中国代码托管平台和开源社区的规模仍然差了一个数量级,例如2018年微软收购Github的公告透露其用户数量达到2800万。此外,国际开源社区往往为根社区,也就是源头创新,很多国际开源项目都属于“从0到1”的原始创新。2006年的Hadoop、2010年的OpenStack、2013年的Docker、2016年的Hugging Face等等,都是原始创新和源头创新项目。

中国开源社区和生态还处于跟随发展状态,还没有出现重量级的原始创新和源头创新项目。我们这一代开源技术人的任务,就是为下一代年轻人的原始创新,打下坚实的开源商业和软件工程基础。

联想创投:怎么看开源中国所处的开源赛道?

马越:首先,我认为开源技术是手段,不是目的,不要为了开源而开源。其次,中美环境有着显著的差异,两个市场的商业环境和文化有着根本性的不同,因此不能套用美国开源赛道的定义和模式。对于中国来说,服务于企业信息化和数字化的开源技术,可以定义到泛ToB服务这个赛道。

至于中美两个市场的显著差异,一个明显的例子是美国公司更注重人效管理,而要提高人效就必须要借助具有更高生产力的工具,因此美国初创公司在获得融资后的一年内平均采购28个SaaS工具软件,这些SaaS工具软件能够为公司带来非常明显的效益。而在中国,国家已经定义了八大信创行业,分别为金融、电信、石油、电力、交通、航空航天、医疗、教育等,这八大行业中的企业都有着各自不同的业务流程,同时这些行业本身也处于高速数字化变革的过程中,因此仅是标准化SaaS工具很难满足这些行业的个性化需求,还须提供PaaS底座平台进行定制化开发。

观察美国对标公司,可以发现收入结构完全不同。美国对标公司超过5万美元客单价的客户并不多、少于5000美元客单价的客户也不多,其收入主要来自于中长尾客户,这些客户撑起了百亿美元市值。而中国市场还没有形成为SaaS付费的文化,并且SaaS软件本身所追求的标准化也不能适应中国快速变化的市场环境,特别是中国大型企业都有自己的业务流程和大量遗留资产,这些都无法适用标准化的SaaS软件。因此SaaS软件想要在中国市场取得成功,就必须有一个可定制化的底座,这就是PaaS——PaaS是现代软件工程的基础。在形成软件工程能力的过程中,企业需要通过统一的代码托管平台,对开发的软件代码进行集中统一管理、形成软件资产,这样方便进行审计以及衡量每一名程序员的贡献与价值,同时能够不断提高软件开发的效率和软件质量。开源中国服务过上百家大客户,我们发现客户的很多软件代码都散落在各个项目组,难以实现软件复用、重复“造轮子”现象严重。在Gitee平台上,越来越多的企业实现了软件资产的集中管理,在集中管理的基础上实现了代码的复用,极大提升了软件开发的效率,同时还能不断改进软件质量。

联想创投:开源中国的产品结构是怎样的?

马越:从开源中国的收入结构来看,1/3为面向小团队的SaaS标准化工具软件,而2/3为面向大型企业的PaaS和软件开发服务。此外我们在2023年推出了信创一体机产品,今年将加大推广力度。未来,我们还计划将服务头部大型客户的解决方案裁剪成一个一个的模板,再通过信创一体机预装的方式供中小客户开箱即用。

我们现在强调“Product Led Growth”,也就是用产品引领公司的增长,而我们的产品力就来自于庞大的用户社区。开源中国平台上的开发者和企业用户,提供了源源不断的用户需求,我们将这些需求转换为可以商业化、产生利润的产品,再用营收反哺开源社区,形成社会价值与商业利润的良性循环。值得一提的是,在开源中国的平台上,还有上下游合作伙伴,很容易形成完整的产业链条,快速向市场推广可商业化的产品。

Gitee平台现已成为中国最大的开源生态和开发者载体,服务了全国所有的985、211高校,平台上有2500万代码仓库、26万家企业、1000多万程序员,每天有150万人在平台上进行代码协同和在线开发。目前,Gitee平台是中国最强大的工具链平台,我们将不断完善Gitee平台,持续提高软件开发生产力,例如即将推出的代码自动生成平台Codex,2024年将上线的大模型平台等。

联想创投:开源是一项长期事业,在您创业的时候,秉承怎样的初心,最终“守得云开见月明”?

马越:我在2007年回国创业的时候,当时的想法很简单,一是响应国家的号召,二是为了能够与朋友们聚在一起从事共同的事业。如果说初心,这就是最开始的初心——一群人聚拢起来,满腹豪情壮志,做出一番伟业。但当时国内还处于开源的“荒地”,我们成为了“垦荒人”。“垦荒人”肯定是非常辛苦的,而且需要长期的坚守。

在我最开始创业的时候,国内对于开源技术和开源社区的了解比较有限。相对于“IOE”等大名鼎鼎的企业级IT技术,当时很多企业的信息化负责人都不了解开源技术在企业IT领域的潜力和价值。好在当时我遇到了空降南航的一位CIO,这位CIO也是回国的IT专家,他以创新为主要目标,果断选择了用开源技术进行创新。这位南航CIO就是胡臣杰,他推动实施了中国第一张电子客票、电子登机牌和电子货单等创新项目,引领了中国民航业的数字化创新,他后来加入了阿里,并在2023年加入开源中国,任首席战略官。

创业16年来,我一直如履薄冰。幸运的是,开源是世界潮流,也是中国的大趋势,这个趋势的起势比较慢,但终究赶上了互联网、云计算、人工智能、信创产业等一波又一波浪潮。更为重要的是,在我们的平台上逐渐聚集起了上千万的开源开发者,这些新朋友成为了我们坚守开源事业的力量源泉。

一批又一批开源技术人,在我们的平台上成长起来,而我也在这个过程中与开源社区和开源开发者一起成长。我一边学习各种新兴的开源技术,保持自己在开源技术领域的与时俱进,同时为了维系和发展公司而自学了各种管理知识,包括管理会计等。公司的几次融资,都是我亲自与投资者打交道,我在这个过程中学会了各种财务报表等财务知识。可以说,我从最开始的纯技术人员,一路成长为CFO、职业经理人等管理角色。2023年,公司完成了B+轮融资,我们的投资者队伍包括国资、企业投资、专业VC等,而开源中国也成为了完全独立的第三方平台,从而为下一个15年做好了充分的准备。

联想创投:2023年是大模型之年,开源中国是否在筹备相关的产品?对于2024年有何计划?

马越:我们从2023年之初就开始筹备大模型平台了,这个过程持续了一年的时间,新的平台预计将于2024年1月上线。为什么要花这么长的时间打磨大模型平台?这主要源于开源中国在过去16年的信创实践,我们在中国市场实现了完全的合规遵从,有着丰富的合规经验与实践,因此即将推出的大模型平台也完全符合国内的安全合规要求。可以说,开源中国通过过去16年的信创实践和经验,构建起了独特的护城河,这也是我们区别于市场上其他大模型平台供应商的差异化点。

我们为即将上线的大模型平台准备了7000多个大模型,首批上线1000个大模型以及5000多个数据集,已经能够很好地满足市场需求了。同时,我们还做好了这些大模型与上下游的兼容工作,例如与国产GPU的兼容等。当然,兼容工作是一个巨大的工程,需要长时间的投入,我们将在未来不断完善这项工作。大模型平台是开源中国的下一个阶段,也是2024年的重点。我们希望通过基础性平台成为中国的人工智能发展和程序员进行科技创新的“兵工厂”和“武器库”,通过普遍提高全社会的软件工程力,推动从中国制造迈向中国创造。

我们也期望在联想创投的平台上,与更多的合作伙伴一起,共创数字中国大时代。前不久,我们与联想创投投资的OpenCSG开放传神达成了深度合作,双方将以各自的核心技术、业务能力为基础,在开源社区、数据集、模型托管、代码托管、产品开发、解决方案定制、人才培养等多个方面进行广泛合作,发挥各自优势、整合资源,共同推进软件研发管理解决方案与大模型支撑解决方案的建设与落地,为大模型和应用开发者提供更好的软件产品及服务。相信更多的好朋友聚在一起,将为中国的开源事业带来更大的能量!