国际测试委员会(BenchCouncil)在三亚举办的2023智能计算与芯片联邦大会(FICC 2023)联合主论坛上发布了全球首个开源年度贡献榜(征求意见稿)。该榜单由多位独立科学家从2022年至2023年的数万份开源贡献中选出了百项代表性成果。
2022年至2023年备受推崇的一个开源领域是大语言模型以及相关工作,各种算法、框架、组合、自动化、应用扩展等开源项目不断涌现,如Meta的大语言模型LLaMA、清华大学的ChatGLM、微软亚洲研究院的TaskMatrix、英伟达的Eureka、英国Significant Gravitas的AutoGPT等。
开源的另一个重要分支是面向应用或场景的数据集、算法、库、工具包、框架和系统。委员会挑选了41项代表性成果,涵盖大数据分析、人工智能、高性能计算、安全和隐私、数据集以及复杂应用,如自动驾驶、人类行为、数字孪生、区块链、数据互联网、服务和微服务。具体来说,新型编程语言、编译器、库和工具广泛应用,如北京飞漫软件技术有限公司的HVML、微软的TypeChat、斯坦福大学的langcc、谷歌的IREE等;操作系统和虚拟化技术包括上海交通大学的TreeSLS、华为的OpenHarmony生态、云猿生的KubeBlocks等;大数据、AI、微服务、区块链等领域深度融合,如中国科学院计算所的分子动力学软件包DeePMD-kit和单流跟踪框架OSTrack、上海人工智能实验室的自动驾驶框架UniAD、阿里巴巴的FaceChain、北京大学的数联网与大数据互操作技术、中国科学院计算机网络信息中心的流水线系统PiFlow、香港中文大学的3D数据集OmniObject3D、美团和台湾中央研究院信息科学研究所的YOLO系列、字节跳动的微服务框架Volo等、Aptos的区块链解决方案等。
数据管理是一个持续受到关注的热点领域。从2022年到2023年,开源领域见证了各种创新数据管理工作的出现,传统数据管理和新型数据管理齐头并进,如北京大学的图数据库gStore、阿里巴巴的时序数据库CeresDB等;委员会挑选了17项具有代表性的成就,包括流数据库、向量数据库、时序数据库、嵌入式数据库、图数据库、数据库的机器学习扩展、文件系统、数据建模和工具以及数据转换和可视化。从编程语言到编译器,从操作系统到硬件架构,软硬件栈的研究和工程在计算机系统的发展中起着至关重要的作用。委员会挑选了23项代表性成果,包括10个关于编程语言、编译器、库和工具的项目,6个关于操作系统和虚拟化的项目,3个关于计算机体系结构的项目,以及4个关于性能分析和优化的项目。
同时,国内开源生态蓬勃发展,如陆首群教授领导的开源软件推进联盟COPU。
在机构榜上排名前十的开源机构是谷歌、阿里巴巴集团、Meta、NVIDIA、斯坦福大学、清华大学、北京大学、中国科学院计算技术研究所、上海人工智能实验室和微软。
在国家榜上,美国和中国并驾齐驱,分别位居第一和第二。其他国家包括英国、德国、瑞士、印度、爱尔兰、土耳其、南非、克罗地亚、加拿大、保加利亚、巴西、澳大利亚、斯洛文尼亚和新加坡。
榜单详细信息可访问Open100: Top 100 Open Source Achievements (benchcouncil.org)。