2023 年将被铭记为全球公众采用人工智能 (AI) 的第一年,以及旷日持久的俄乌战争和哈马斯突然袭击引发的以色列入侵加沙。
ChatGPT 于 2022 年 11 月底悄然发布,从次年春季左右开始在全球范围内引起了爆炸性热潮。
一开始,ChatGPT 理解我们人类所说的话并巧妙地操纵文字,但它的答案往往是错误信息、捏造或种族和性别偏见。
然而,自从 ChatGPT 的基础大型语言模型 (LLM) 切换到最新的 GPT-4 后,这些问题逐渐得到解决。
现在,当我们向各行各业提问时,他们通常会给出适当而连贯的答案。 就其涵盖的知识广度而言,可以看出ChatGPT已经远远超出了人类的能力。
如果这种先进的人工智能以目前的速度发展,有传言称所谓的“AGI(通用人工智能)”和“奇点”将比预期的更早到来。
为了预测未来人工智能演进的速度和方向,简要回顾一下现代人工智能的历史是有用的。 这是因为人工智能走向未来的形象将在未来出现。
人工智能的历史可以追溯到1956年的美国达特茅斯会议,但实际上,它可能足以限制过去十年左右的历史(图10)。 诚然,人工智能已有近1年的历史,但直到最近,这项技术才开始发挥作用。
ChatGPT等现代人工智能是一种“神经网络”,通常被称为“神经网络”,可以肯定地说,它通常被理解为“指人类等动物大脑的人工智能”。
神经网络是一种非常古老的人工智能技术,诞生于 1950 年代,但直到 2000 年代初才取得太大成功。 直到 2000 年代末和 2010 年代,它的潜力才开始得到认可(至少在人工智能研究人员和其他专家中)。
当时,加拿大多伦多大学Geoffrey Hinton教授的实验室里有两名人工智能研究人员(研究生),分别是来自乌克兰的Alex Kryzhevsky和来自俄罗斯的Ilya Sutskevá。
自 1970 年代以来,Hinton 一直坚持不懈地研究神经网络,现在被称为“人工智能教父”。
另一方面,克雷热夫斯基是一位编程大师,Hinton 称赞他“可能是我一生中见过的最好的计算机程序员”。 Suskever也是一位才华横溢的黑客,他自己开发了自己的编程语言。
2010 年左右,他们发现,当 Nvidia 的 GeForce 显卡在一个名为 CUDA 的并行计算平台上运行时,神经网络的处理速度(或者更准确地说,学习速度)比传统 CPU(中央处理器)高出约 100 倍。
这种类似 GeForce 的显卡(图 2),也称为“图形处理单元 (GPU)”,是当时高级游戏玩家为了加速视频游戏而购买的,主要用作游戏 PC 的一部分。
这些GPU价格昂贵,每个GPU的成本高达数千美元,因此即使在大学实验室中,您也买不起这么多GPU。
2012 年,Kryzhevsky 和 Stukeva 仅使用两个 GPU 开发了一个多层神经网络。 它以开发人员(Alex Krizhevsky)的名字命名为“AlexNet”。 AlexNet赢得了由斯坦福大学研究人员赞助的全球图像识别竞赛,以压倒性的优势击败了第二名。
他们的论文“ImageNet Classification with Deep Convolutional Neural Networks”是计算机科学史上最重要的论文之一,被其他人工智能研究人员引用超过10万次。
从那时起,用于语音和图像模式识别的人工智能的研究和开发充满了使用 GPU 的多层神经网络。 此外,由此产生的机器学习被称为“深度学习”。
深度学习图像识别系统能够在3%以上的时间内正确区分两者,即使呈现令人困惑的图像,如“豹子”和“猎豹”(图3),它们都有棕褐色的皮毛和黑点。 这是一种超越我们人类的图像识别能力。
这一成就被专家高度评价为“AI第一次有眼睛”的隐喻。 视觉是所有认知功能的基础,它的实现让我们对神经网络的未来,也就是人工智能的未来寄予了很大的希望,而在此之前,人工智能一直无法取得多大的成果。
注意到这一成功,谷歌将实验室的所有成员,包括Hinton、Krydzhevsky和Stukevar,都投入到自己的人工智能研发中。 因此,据信这些研究人员中的每一个都至少获得了数百万美元的报酬。
看到谷歌的举动,Facebook(现在的Meta)还邀请了与Hinton相媲美的著名AI研究员Jan Lekann担任其新成立的AI研究所所长,薪酬同样昂贵。
很快,像安德森·霍洛维茨(Andreessen Horowitz)这样的硅谷风险投资公司(VC)开始投资一系列初出茅庐的人工智能开发初创公司。
就这样,工业界开始关注以前还停留在大学等研究界的人工智能,巨额资金开始流入其研发。 这是当前深度学习和人工智能热潮的开始。
当时,谷歌将Hinton和多伦多大学的其他研究人员分配到一个名为“Google Brain”的人工智能研究部门。
另一方面,在2014年,该公司以约6亿美元收购了英国人工智能初创公司DeepMind,并(在保持相当大的独立性的同时)成为谷歌的子公司,该公司也从事先进的人工智能研究和开发。
这意味着谷歌当时至少有两个人工智能研究部门。
DeepMind的联合创始人之一、时任首席技术官的德米斯·哈萨比斯(Demis Hassabis)小时候被称为“国际象棋神童”,曾一度在14岁以下棋手中排名世界第二。
16岁从家乡伦敦毕业后,他开始在当地一家游戏制造商担任开发人员。 后来,在创办并经营自己的游戏开发公司后,他在剑桥大学和伦敦大学学习,在那里他沉浸在神经科学研究中。 后来,在 2010 年,他与 AI 研究人员 Mustafa Suleiman 和 Shane Legg 共同创立了 DeepMind。
在他15、6岁的时候,他已经决定将来要成为一名人工智能研究员。 他多样化的职业生涯,包括他作为国际象棋神童、游戏制作开发者和脑科学家的时间,最终都是为了利用人工智能研究。
你为什么在这么年轻的时候就决定成为一名人工智能研究人员? 谈到他的动机,哈萨比斯说:
“我在初中和高中时就喜欢物理学,理查德·费曼(Richard Feynman)(他因在量子电动力学方面的工作而获得诺贝尔奖)和史蒂文·温伯格(Steven Weinberg)(他也因其电弱统一理论而获得诺贝尔奖)是我的英雄。
然而,当我仔细观察他们的工作时,我意识到他们在整个漫长的物理学历史中并没有取得太大的进步。 换句话说,他意识到,即使是像费曼这样的人和其他了不起的天才,仅凭人类的能力也能做到有限。
所以我决定成为一名人工智能研究人员,而不是物理学家。 我想,如果我能利用我开发的先进人工智能作为支持科学家的工具,我将能够为物理学和整个自然科学带来无限的进步。
听到这些说法,人们可能会觉得哈萨比斯是一个头脑清醒的理想主义者,但事实似乎并非如此。
他出乎意料的务实和世俗,比如当他被彼得·蒂尔饰演的伯蒂邀请依靠他在硅谷的人脉时,他巧妙地说服了这位著名的投资人为DeepMind的创立提供资金。
哈萨比斯的这种务实态度也体现在他对研究课题的选择上。
从 2010 年共同创立 DeepMind 到 2014 年谷歌收购该公司,Hassabis 和他的同事们沉浸在人工智能的研究和开发中,这些人工智能可以自动玩经典视频游戏,例如 1970 年代的乒乓球游戏 Pong。
你为什么敢选择这样的研究主题? 以下是 Hasavis 对原因的看法:
“当时,先进的人工智能研究人员喜欢选择配备先进人工智能的自主机器人(例如在工厂和仓库中与人类一起工作的人形机器人)。 然而,所有这些机器人部件都很昂贵,它们的机械结构很复杂,而且它们的行为很迟钝。 此外,机器人经常发生故障或损坏。
换句话说,我觉得很难产生以现实世界或物理世界(例如机器人)为研究主题的结果(在技术方面)。 相反,我认为我应该选择模拟(在现实世界中没有物理障碍)。
电子游戏是一种模拟,同时也是我从16岁开始就一直在从事研发的技术,所以我积累了足够的知识和经验。 它从像 Pong 这样的基本游戏开始,最终是像星际争霸这样高级而复杂的游戏,现在可以由 AI 自动玩。
回首过去,我相信电子游戏这个研究主题是研究和开发先进人工智能算法的最有效方式。
最终被谷歌收购的DeepMind,将通过游戏AI研究培育出的“深度学习”和“强化学习”等先进技术应用于围棋,并于2014年开发了一款名为“AlphaGo”的围棋AI软件。
2016年,AlphaGo以16-4击败了韩国的顶级围棋选手李世石,他总共赢得了1个围棋世界冠军,2017年,他以三场比赛的胜利击败了当时被吹捧为“人类最强围棋选手”的中国选手柯杰。
在日本,围棋和将棋等传统棋盘游戏已成为让公众了解高级人工智能令人难以置信的能力的绝佳机会,例如山本一成在 2017 年主要开发的将棋 AI 软件“Ponanza”,击败了当时著名的大师佐藤天彦。
因此,始于 2012 年左右的全球人工智能热潮被铭刻在人们的脑海中。
随后,由哈萨比斯等人牵头的DeepMind,将AlphaGo开发过程中培育的先进AI技术应用到分子生物学领域,并于2018年开发出一款名为“AlphaFold”的学术工具来预测蛋白质的结构。 这是一个使用深度学习来预测构成蛋白质的氨基酸序列的折叠结构的系统。
将这种先进的人工智能应用于自然科学是哈萨比斯最初的目标,AlphaFold也被分子生物学家视为一种计算预测新蛋白质存在的系统。
然而,从科学家以外的普通大众的角度来看,像AlphaFold这样的学术AI确实很重要,但从日常生活的角度来看,它没有意义。
在AlphaGo击败李世石等世界强者的时候,天才哈萨比斯经常成为电视和报纸的头条新闻,但从那以后,他出现在各大媒体上的机会就减少了。 由此可见,全球人工智能热潮已进入“低迷期”。
然而,即使在这一时期,支持深度学习等先进人工智能的计算基础设施的发展也在稳步推进。 成立之初,作为游戏显卡制造商的英伟达,成长为一家大型AI半导体制造商,并开发并商业化了A100等一系列新型超高速GPU。
大约在这个时候,OpenAI,一家在世界上仍然不为人知的人工智能初创公司,采用了许多这样的超快GPU,并在幕后开发了一种名为“GPT”或“大型语言模型(LLM)”的新型人工智能。
Sam Altman 的 OpenAI 是如何诞生、演变的,以及它的发展方向? [第1部分]
2022 年 11 月底,基于 LLM 的对话式 AI ChatGPT 发布时,凭借其流畅的语言技能和惊人的博学,迅速引起了全球热潮。
在LLM商业化方面被OpenAI超越的谷歌,似乎一度陷入内部动荡,但很快重新找回了自己的位置,并试图跟进。
2023 年,该公司将其两个 AI 研究部门 Google Brain 和 DeepMind 合并为一家名为 Google DeepMind 的研究机构。 哈萨比斯被任命为其领导人。 换句话说,他负责谷歌的所有人工智能研发。
同年12月,谷歌(DeepMind)发布了Gemini,这是一个多模态LLM,可以处理语言、视频和音频等各种类型的数据。 通过获得多种识别功能,人工智能也发展出一种推理能力。
在YouTube上发布的宣传视频中,Gemini展示了他的推理能力,预测具有低空气阻力的流线型汽车将比具有棱角设计的汽车行驶得更快。 然而,这段视频被批评为谷歌精心制作的一种“恶作剧视频”,对哈萨比斯来说是苦乐参半的处女作。
未来,他领导的谷歌DeepMind的目标是使这种人工智能能够与物理现实世界进行交互,包括在机器人上安装Gemini。
通过这样做,他希望解决被称为“符号接地问题”的经典难题。 换句话说,LLM,即“无形人工智能”,将能够通过借用机器人的身体并体验现实世界来体验被称为“文字”的符号的含义。
2010 年,当他首次在英国共同创立 DeepMind 时,他仔细考虑了现实世界中的各种物理障碍,并开始研究更像电子游戏的模拟 AI,但这次他打破了这个界限,开始开发针对现实世界的机器人 AI。
摆在他们面前的是OpenAI所瞄准的“AGI(通用人工智能)”,OpenAI现在已成为其最大的竞争对手。