量化巨头首次推出大型模型:免费商用,完全开源

发表时间: 2023-11-03 18:18

量化巨头幻方开发的大模型来了!

11月2日晚间,幻方宣布,探索AGI(通用人工智能)的新组织“深度求索(DeepSeek)”在成立半年后,发布第一代大模型——开源代码大模型DeepSeek Coder,已经开放内测,免费商用,完全开源。

公告显示,DeepSeek Coder模型有指令Python快速写出程序、修改UI(用户界面)、测试bug(程序错误)以及数据分析,学写SQL(数据库语言)等技能。

据国盛证券研报,在云算力端,目前国内只有商汤、百度、腾讯、字节、阿里和幻方有超过1万张A100芯片储备。

性能优于GPT3.5-Turbo

11月2日晚间,在成立半年后,幻方宣布,探索AGI(通用人工智能)的新组织“深度求索(DeepSeek)”发布了第一代大模型DeepSeek Coder,已经开放内测。

在公告中,DeepSeek Coder展示了用Python写一个贪吃蛇游戏,随着屏幕快速输出跳跃的代码,一段可直接运行的游戏代码即可生成;指挥DeepSeek Coder修改UI,轻松写出更难的2048游戏等。此外,DeepSeek Coder还能测试bug;作为数据分析的好帮手,学写SQL也是其必备技能等。

据介绍,目前DeepSeek Coder已经开放内测。DeepSeek Coder已开源7B,33B全系列模型,包含Base模型和指令调优模型。在国际权威数据集HumanEval编程多语言测试上,DeepSeek Coder在各个语言上的表现都领先已有的开源模型。

此外,据介绍,与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先9.3%、10.8%和5.9%。其中DeepSeek Coder的70亿参数版本在代码能力上达到了CodeLlama的340亿参数水平。经过指令调优后的DeepSeek Coder模型更是全面超越了GPT3.5-Turbo。

今年4月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索AGI的本质。幻方将这个新组织命名为“深度求索(DeepSeek)”。

公开信息显示,“深度求索”的公司名称是杭州深度求索人工智能基础技术研究有限公司,成立日期是2023年7月17日,宁波程恩企业管理咨询合伙企业持股99%,幻方量化实控人梁文锋持股1%,法定代表人为裴湉。

探索AGI并非用来炒股

幻方量化是量化私募中的头部公司,管理规模曾一度突破千亿元大关。幻方官网显示,其在2018年就确立以AI为公司的主要发展方向。

2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

幻方表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。”

梁文锋此前在接受采访时曾表示,幻方的主要班底里,很多人是做人工智能的,“当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。”

曾有传言指出幻方探索AGI是用来炒股,幻方量化CEO陆政哲此前曾表示:“我们探索AGI不是用来炒股的,是做GTP相关的大模型,与金融无关。我们独立于投资新成立了一个团队,相当于二次创业,从事的是科技方向,只是大家习惯把我们局限在投资领域。”

值得一提的是,幻方量化作为一家头部量化私募,10月26日有传闻称该公司宣布暂停渠道募资。不过,幻方量化相关人士当时回应澎湃新闻记者称,募资已经停止很久了,2021年12月就暂停了,幻方量化当前的基金管理规模是400多亿元,这个规模目前看是策略比较合适的规模。