要闻背景简述
2月21日,谷歌宣布推出全球性能最强大的开源大模型Gemma,分为2B(20亿参数)和7B(70亿)两种尺寸版本。
谷歌声称,Gemma模型在18个语言理解、推理、数学等关键基准测试中,有11个测试分数超越了Meta Llama-2等更大参数的开源模型。
最近人工智能相关的新闻特别多。早早入场人工智能领域,但是业绩表现一直不好的谷歌,终于有点新动作了。
他们推出了一个新的开源模型,叫做Gemma,还做了一系列的数据对比,声称比Facebook的开源模型Llama 2指标好很多。这当然对整个人工智能市场来说这是个利好。
一方面,谷歌推出开源模型之后,未必能够改善自己的这个情况。因为谷歌本身一直是产品和研究比较脱节。研究能力确实好,但是产品上不太行。
另一方面,我在用谷歌搜索的时候,发现谷歌确实已经在自己的搜索上强推AI功能了,以前谷歌是不这么干的,现在干了。
我今天用谷歌搜索的时候,它就直接给一个提示栏,说你想不想要人工智能优化过的搜索结果。要的话点击就去下载谷歌APP,那里面就是人工智能优化结果,如果不要就还是传统的谷歌搜索。
我们都知道,人工智能结果和谷歌搜索结果是很不一样的。如果你用过OpenAI你就知道了,一个是传统的一项一项罗列,你自己找答案,另一个是系统凝练出答案来。现在越来越多的人希望是凝练答案。
我之前就讲过,其实谷歌很难受。一方面,只有一条一条的搜索结果里面才能插广告,这是他们赚钱的主要手段。另一方面,他们其实也有能力做成OpenAI这样的直接给结果的搜索,但是就没收入了。
所以就变得很尴尬,相当于左手打右手。现在看起来也想通了,该打还是得打,这其实是科技企业的一个特点,就是你不自我革命就被人家革命,到最后你还是要自我革命的。
我们说谷歌推出开源大模型,这其实是它传统学术研究的一部分。但是谷歌的业绩表现不能只看这个模型,要看他们是不是能够实现自我革命,而且要做得要更彻底一点。
但是,这对整个大模型产业领域是个利好,尤其对中国是个利好。
为什么这么说呢?因为以前中国的大模型的开发,还是希望借鉴国外的开源大模型的,比如之前Llama 2出来之后,很多国内大模型就又进了一步。
现在由于OpenAI给谷歌、Facebook等很多竞争对手都带来了巨大的压力,但人家是不开源的。那你跟人家竞争靠什么?就靠开源。
所以,我相信谷歌、 Facebook等等一系列的开源者,就要加速竞争,使得这个市场更活跃,更多的鲶鱼在产业里搅动。而且,为了要应对头部,他们就愿意开源。你会发现,开源市场会越来越活跃。
美国的这些人工智能大模型开发者,因为相互竞争的需求在积极踊跃地推动开源,这对中国是个利好。当然我们也不能靠着人家,所以我们认为中国也要走出自己的路来。
总的来说,还是有路可走的,而且有两条路。
第一条路就是不管开源不开源,其实大模型的训练还是要靠数据的。我们都知道,不同的数据格式都需要不同的处理方式才能进步。
比如说最近的Sora,就是OpenAI推出的视频生成功能,它就是因为找到了对视频的处理方法,又有了进步。
我们认为对文字的处理、对图像的处理和对视频的处理都要有不同的处理方式。不光是模型,前面的处理方式都要不一样。
那是不是意味着,未来对不同行业领域的行业数据也需要有不同的预处理方式,而不只是简简单单地输入到大模型里,我认为可能性非常大。
那就意味着什么呢?大模型之争我可能争不过你,但是你也有开源的,我可以用了。
但问题是真正要把这个数据处理好,前面的预处理如何做?我们中国人是不是能够总结点自己的经验呢?我认为很有可能。
也就是说,我们在应用层面、在行业数据、在专有数据处理上去取得领先,我觉得是有机会的。因为我们中国对人工智能的拥护程度、拥抱程度更高,我们的数据就可能得到更多地处理。
那另外一条路就是,我们如何能在更基础的层面上突破。
其实Sora给我们很多的启示,就是人工智能其实是在向人类智能致敬,人类智能有自己的独特处理方式。
简单说就是和人工智能很像,不管外部的数据是视觉的也好,听觉的也好,味觉、嗅觉也好,最后都会统一转换成电信号,再进入大脑。
我们的大脑实际上是一个封闭的黑匣子,能够进入到大脑里面的只有神经,只有电信号,所以,不同的外部刺激通过不同的编码转换成电信号进入了大脑形成处理,让我们对外部的不同的刺激都产生反应、产生感觉、产生认知,这是人类智能的特点。
如果中国的人工智能科学家能够和人类智能的科学家,和研究认知科学的科学家,能够更紧密地合作,也许我们在前沿上会有更好的突破。
因为别忘了,大家都认为下一个焦点可能是通用人工智能。甚至有很多人认为Sora就是通用人工智能要来的前兆。但是坦白讲,我认为不是,它还只是一类数据的处理方式。
人工智能要真正实现通用化,就需要像美国著名的人工智能科学家杨立昆讲的世界模型。也就是说,从更复杂的角度去看人脑对多来源的信息如何做综合处理,如何产生综合系统的分析和认知。
这种时候,无疑需要认知科学家的大量的贡献,所以我认为,也不用担心我们落后,我们要前瞻,要想怎么弯道超车,在前面等他们。
如果我们汇集更多的人工智能专家和认知科学专家,在通用人工智能的研发上,能不能领先?
就像我们在传统能源上落后了,但是我们在清洁能源上赶超了,而我们在所谓的轻型核能上有可能是领先的,是一样的道理。
所以,我们希望在人工智能这个领域,我们也能够做多层次的布局。不用担心在大数据、大模型上的落后,但是我们有可能在应用上,尤其是在专有数据处理上,甚至在更前沿的世界模型和综合认知上,能够实现反超。
以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!
王煜全要闻评论,我们明天见!