文/雷涛
一、什么是人工智能
(一)图灵测试
图灵测试在 20 世纪 50 年代已经提出,那时没有计算机。图灵测试指测试者与被测试者(一个人或一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果机器让平均每个参与者做出超过 30% 的误判,那么这台机器就通过了测试,并被认为具有人类智能。以前有一些人可能不理解,但到今天就很明白,像小度音箱如果你连问三次今天温度怎样,它的回答是一样的;但你问家人同一个问题三遍,他的回答可能是“你是否有毛病 ? 一个问题问三遍”,这就是人和机器的区别。图灵曾经预测,人类用 50 年左右的时间可能完成图灵测试, 但是实际结果不太理想,人类用了 60 多年的时间才完成了图灵测试。
(二)人工智能的应用
人工智能的应用领域非常广泛,如人脸识别和跟踪、遥感影像中的目标检测、医学领域中的病灶识别和分类、材料领域的新材料发现。除此之外,人工智能在机器人领域的应用更为广泛 , 对机器人的发展而言 , 从机械角度来讲,目前的机器人灵活度和稳定度已经做的非常好,比在机器人脑部方面的进展要快 , 然而决定机器人水平的主要依据是其智能水平。这和人一样,医院神经科的医生地位通常更高,因为神经科的病人特别多;且这些病相对来讲比较难治疗,因为人脑结构非常复杂。所以从人工智能类脑计算出发,实现仿人机器人还有漫长的路要走。
人工智能也是影视娱乐领域的一个重要话题,典型代表是 2004 年的好莱坞电影《我,机器人》,影片中对人工智能有超前认识,讲的是机器和人最终的区别是情感区别。如果有一天机器也有情感会怎样?显然 , 推进人工智能发展 , 预测人工智能的未来需要工科与人文社科研究人员共同努力和协调发展。
二、人工智能背后的技术原理
(一)机器学习
今天人工智能发展的如火如荼,核心原因是机器学习理论。我们要研究人工智能无非就是做一个仿人机器人,让机器达到和人几乎一样的功能。人之所以聪明,最根本的原因是会学习。怎么教会机器学习?从我们小时候教育的过程就可以理解机器和人学习的过程。小学一年级学习加法时,老师课后会布置大量作业,做错了很正常 , 继续修改就行;通过大量训练和纠错 , 到小学三年级大家就掌握了加法的本质原理 , 基本不会犯错了 , 那么学习的目的就达到了。
人对世界的认知就是一个学习过程,这个学习有一个特点是小样本学习,需要较少的例子就可以学会 ( 当然存在特殊情况 , 智力有问题的人通常难以有效学习 )。比如人对猫和狗的识别,通常看几张图片就认识了。机器怎么学习?例如利用机器学习的方法可以对图像进行分类,然而当模型过于简单(智力水平低)时,训练好的模型只能识别常规的猫和狗,如果对图像进行各种退化处理或者尺度放缩及形变,模型往往会出错,而人通常可以应对各种外界环境的干扰做出正确识别。这就说明一个问题,人的大脑学习是很聪明的过程,看两三张照片就掌握了规律,是小样本学习。机器要完成对猫和狗的正确识别,需要海量训练样本(图片),同一张图在训练前需要做各种尺度、旋转、仿射变换等(数据增强策略),只有输入大量图片机器才能有效掌握识别猫和狗的规律。如同班上聪明的学生通常只需做两三道题就能掌握这种类型题,而智力水平低的学生需要做几百道同类型的题才能掌握规律,当前的机器学习好比智力水平较低的学生。
第二个区别,鲁棒性。比如给机器一个辨别色盲的照片,机器大概率会出错,因为它应对各种新情况能力较弱,而人应对外界环境变化的能力远高于机器。目前的深度学习技术在鲁棒性方面已经有了明显改进,比如人脸识别,回顾 10 年前的人脸识别系统,戴口罩根本无法识别,而现在可以正确识别,说明当前的机器学习水平已经比过去提高很多。机器学习还有一个重要概念是泛化能力,比如我现在认识你,你带了一个小伙子来了,我说这是你儿子,因为和你长的像;而机器通常对它没有见过的东西,出错概率比人要高的多。如果我们训练好一个模型,机器可以对这张图片进行一个正确识别;而像漫画形式的,机器出错的概率就非常高。
学习的过程就是总结规律、反复纠错的过程。小学生如果错一个字老师可能会让他写几十遍,说明大脑可以被认为是一个模型,这个模型本来不健全,通过不断学习,模型稳定后就不再出错,这是一个反复纠错的过程。机器也一样,现在的人脸识别模型就是一个复杂函数,里面有很多参数,只要调整参数值整个判别函数就变了。所以,我们要学习模型里不同参数值,参数初始值是随意给的,而机器学习在第一次的学习过程中(例如 1+1=3),错了就对参数进行修改;第二次学习过程中又一个样本学习错了(例如 2+5=9),继续再修正参数;一直下去,直到发现它能连续多次正确就不再修改模型里的参数,这是学习的最基本过程。
图 1 误差函数的变化
机器学习涉及到的三要素是数据、模型和算法。比如要对一些图片进行识别,把猫识别出来,就需要大量样本,就好比学生学习需要大量题库,如果题库都没有做过,怎么可能掌握基本知识,所以样本可以认为是最基本的素材。进入大数据时代,由于计算机成像技术的快速发展,获取图像、语音、文本的方式越来越简单,因此各种媒体数据量不断增加。其次是模型。模型很简单,就是一个函数。例如,我们可以看到一个简单函数、一个复杂函数,简单函数是线性的;复杂函数是非线性的。简单函数可以认为是一个智力水平低的小孩,辨别能力差表现在这个分类的模型很简单;复杂模型类似于一个智力水平很高的科学家,对各种各样的事都可以做出正确判断和处理,这就是简单模型和复杂模型的区别。深度学习的过程就是要把简单模型变成复杂模型,这样就不容易出错。机器学习最后一个要素是学习算法,例如同样一个班的学生,为什么有的学生成绩好,有的学生成绩不好,就是因为学习方法不同,这是有差异的。在实际过程中也是一样的,我们在训练模型时用不同算法去做,效率不同,有时训练机器 2 小时就可以收敛,有时训练 10~20 个小时还不能收敛。所以,选择一个很好的算法很重要。
(二)机器学习系统
以人脸识别为例,首先进行数据收集,需要收集大量的人脸数据,被称为历史数据。历史数据包括训练数据和验证数据,训练数据相当于我们平时做的题库;验证数据相当于模拟考试。对模型学习的过程中就是对它的参数不断进行调整。调整的方法是,对错的东西进行惩罚,不断把错的东西变成正确的。等题库里的题做完了就开始验证,通过验证发现成绩还是不行,说明老师有问题,或者说家长有问题,或者学习的环境有问题,这些外界因素就如同模型的超参数。通过调整这些超参数后再进行学习,直到成绩可以了,就能够参加最终测试。
(三)神经网络
机器学习里有很多种方法和工具,其中最核心的就是神经网络。生物学家发现,人脑本身就是一个复杂网络,如何模拟人脑的网络去工作,这是科学家一直奋斗的目标。这方面的工作可以追溯到上世纪三四十年代,模拟人脑的功能网络。从最早的感知器,到今天的深度学习,其原理都是在模拟人的大脑工作机理。人的大脑大约有 860 亿个神经元。基于神经元的工作机理,数学家们将其抽象为人工神经元数学模型,这是人脑工作最基本的机理,这个工作机理就是加权求和的过程。比如开会投票,六个评委每个人打分,最后的打分结果不是直接求平均值,而是带有权重的平均。由于线性运算难以表达复杂模型,因此神经元还涉及到是否激活的问题,这个激活是个非线性运算。因此一个神经元首先通过加权求和的线性运算;其次通过一个非线性运算;最终输出结果,这就是神经元的最终工作流程。
神经网络经历了三次热潮,同时也经历了二次寒冬。图灵在 1936 年提出图灵机,人工智能从此开始进入第一次热潮。随着计算机技术的发展,人工智能也在不断向前发展。到 1974 年经历了一次寒冬,因为最早的神经网络只能对线性可分的数据进行分类,学者们就认为神经网络应用具有较大的局限性,而专家系统可以解决更为复杂的问题。直到 BP 神经网络出现后,其成功地解决了线性不可分数据的正确分类,神经网络迎来了第二次热潮。1987 年,由于神经网络需要更多的训练数据,且识别精度有限,而支持向量机(SVM)是小样本学习方法,且表现出更好的分类性能,因此神经网络一度被质疑,进入了第二次寒冬。直到 2006 年,因为神经网络层的设计不能太深,而人脑的工作机理是深层网络,中间的参数是指数级增长,计算量和模型的复杂性也都是指数级增长;以往的神经网络很难进行深层设计,原因在于无法进行有效训练,而 Hinton 提出深度学习的概念,通过逐层训练结合微调的方式实现了深层网络的训练,由此人工智能进入了第三次黄金时代。
进入深度学习时代后,人工智能迎来快速发展,在传统的 BP 神经网络中,我们通常需要人工进行特征提取,然后设计神经网络实现数据分类或回归。比如做人脸识别,实际上是想办法把一个人脸的照片转换成一个向量,在非深度学习的时代这个过程被称为手工提取特征。提取人脸特征后,要对这些特征进行分类,因此需要训练一个分类器,整个提取特征和特征分类分开执行,而深度学习可以把这两个任务融为一体,让机器全部自动学习。尤其是怎么把人脸变成一个向量让机器自己学习,而不需要人帮助,这就是深度学习和传统机器学习最本质的区别,因为它能够自动学习,所以学习出来的特征往往比人工设计的特征要好很多。
深度学习是信息时代的必然产物。21 世纪是大数据时代,随着成像技术的发展,我们对图像数据、视频数据和文本数据的获取很容易,数据获取方式更为简单,获取大数据集变得越来越容易。有了数据,还要有算力。所谓训练过程就是计算过程,以前训练一个模型要两天,到现在 2 个小时就可以结束。有了数据和算力,还要有算法进行支撑。进入深度学习后,可以设计深度学习模型,尤其是各种学习理论做支撑。三者同时发展,就有了今天人工智能高速发展的结果。
深度学习的代表性方法是深度神经网络。深度神经网络最大的成功在于分层表达,当前的深度神经网络可以做到几千层。层的作用就是认知的过程,层越多模型就越复杂,表达能力就越强。比如进行数字识别,第一层里对这个数字的认识就是不同颜色块,说它有什么特征我不知道;第二层就有一种高级信息,有形状和纹理;第三层就是高级语义信息。深度学习繁荣发展的历程。李飞飞的主要贡献是整理了一个图像库 ImageNet,里面大概有1500万张图像,而且对很多图像做了标注(共标注了大约 120 万张图像)。有了这个超级大库后,学者们就可以验证深度学习的有效性。没有大数据作支撑,无法验证各种深度模型的好坏。因此自 2010 年后,学者们相继参加 ImageNet 比赛,直到 2017 年图像分类错误率已降到了非常低的量级,比赛停止。
三、人工智能技术现状
首先是数据的现状,GPT 的训练数据大约 80万张网页,GPT-2 的训练数据大概 800 万张网页,GPT-3 的训练数据达到 45TB。大数据一旦到来后,只有大公司高投入才能做这样的事情。现在的机器学习方法有监督式学习和非监督式学习两大类。所谓监督式学习分为分类和回归两个问题。回归问题预测的是一个数值,比如天气预报、股票开盘价预测。机器学习里的两大任务,无非就是分类问题和回归问题。监督学习类似于我们的课堂教育,由老师教给你,错了马上指出,不断让你纠错。这样的学习方式成本高,要交学费,还需要很多老师;非监督学习相反,不需要老师、课堂,自学成才。通常非监督学习不如监督学习,因为自学成才的人较少,而且难度大。但是非监督学习是我们奋斗的目标,让机器能自动学习,而不是不断教它。
介于监督学习和非监督学习中间的是弱监督学习,其分为三种,第一种是不完整的监督,做标记时只有一部分进行标记。比如一套题库中,10 套有答案,10 套没有答案,这是不完整监督。第二种是不确切监督。给一个大概的答案,可以很具体地标猫和狗,但也可以笼统地标为动物;类似于老师不教步骤,只讲方法。第三种是不正确监督,即老师也有讲错题的时候。
深度学习繁荣发展。谷歌是全球最大的互联网公司,一直走在人工智能领域的最前端,近年来先后提出了 Transformer、Bert 等。除了谷歌,2017 年微软投入 10 亿美金给 OpenAI 做研发,从而促进了该公司在人工智能领域的崛起,尤其是 GPT-3 的提出,实现了人工智能大踏步前进。除了 OpenAI 公司,还有很多公司也做的非常好,例如苹果、华为的诺亚方舟、京东的探索研究院等。
人工智能的发展可以分为弱人工智能、强人工智能和超人工智能三个层次。个人粗略认为,2020年以前人工智能一直处于弱人工智能。所谓弱人工智能就是下棋、人脸识别这种单项任务。强人工智能就是类人的活动,尤其是多任务执行,例如机器人可以实现自己编程序、语音聊天、自动驾驶等。现在已经步入了强人工智能时代。未来的人工智能应该步入的是超人工智能。所谓超人工智能就是在各领域全面超越人类,或者超过我们的大脑。
人工智能现在存在的问题主要表现在三个方面,一是模型很大,参数量多,内存消耗高;二是数据标注成本较高;三是多任务执行比较难。现在能见到的机器人有送菜机器人、巡警机器人、捡垃圾机器人,一个机器人能不能完成所有的功能?所以多任务执行比较困难。最大问题是它的计算量太大,耗能方面目前是一个严重问题。AlphaGO 下一盘棋的电费大约 3 000 美元。抛开 AlphaGO 我们看GPT-3,它的参数量是 1 750 亿,人类只有大约 860亿神经元。这个模型训练一次成本很高,用电需要19 万度,碳排放是 8.5 万公斤,相当于一辆车从月球开到地球一个来回的碳排放。在碳中和的年代,如何发展人工智能?显然未来我们需要有新的技术作支撑。
四、工智能技术的应用
人工智能如果可以全面用于无人驾驶,会产生非常大的经济效益,但也可能存在很多问题。现在百度、小米都在造汽车,考虑的是未来的新能源及自动驾驶,成本很低。人工智能在医疗领域,从商业价值来讲是最有意义的一个应用。在疾病预测和影像分析领域,人工智能已经表现出明显的优势,尤其某些诊断已全面超过人类,如青光眼的筛查比人类专家水平还高。考虑到责任问题,人工智能在医学里只能作为辅助手段,为医生提供各种参考,最终诊断由医生确定。
成果应用 1:智慧医疗
在智慧医疗方面,我们开发了一套面向肝功能辅助评估的在线分析系统,输入病人肝脏影像后,直接可以打出结构化报告,如果依赖人工去做,传统方法需要 1~2 天才能完成。因此这套影像分析系统可以极大提高医生的工作效率。
成果应用 2:金属及泡沫材料属性分析
根据金属材料扫描电镜图像,研究金属材料单物理属性,需要分析其中的孔洞分布,手动去量通常非常困难,通过人工智能的方法可以做一个有统计意义的分析结果。我们利用计算机视觉技术成功帮助材料研究人员自动分析金属材料属性,为他们提供非常客观的测量数据,误差率降低了一个数量级。此外,对网状结构的泡沫材料(中间的孔洞更多)也可进行智能分析。
成果应用 3:智能地层驱油分析
通过给地层注入水(红色是油的分布,蓝色是水,背景是地层)后可以把油驱出,这就是采油的原理。实际中,研究人员把地层结构做成芯片放到实验室,用照相机进行拍照分析地层中水驱油的变化。我们做了一个智能系统可以分析油路走向,通过之前和之后的图像对比,利用人工智能技术找出前后的变化趋势,找到油路的走向,帮助工作人员找到最佳取油路径。
五、人工智能的未来
人工智能的未来是可信人工智能、超级深度学习和量子机器学习。
京东探索研究院联合中国信通院在 2021 年发布了可信人工智能白皮书。为什么是可信人工智能?比如无人驾驶必须要识别街区场景,如果各种标识牌上贴了小广告,这种情况下智能车通常就会识别错误,发生的后果可能会很严重。这个责任怎么去划分?所以这方面有很多问题,比如可信可视、多元包容等。
当前,数据不断在增长,模型参数也在增长,计算机的计算性能也在增长。因为有计算性能做支撑,所以不害怕数据增长和模型提升,未来的深度学习可以执行的任务非常多,学习能力也很强,能够达到接近人的学习能力,最终实现整体人工智能产业链的布局。
量子机器学习。中国科技大学潘建伟教授开发出国内第一台量子计算机,其计算性能是现有计算机的 1 亿倍。发展量子计算机是人工智能未来的方向,因为计算效率高、功耗低。
六、结束语
“破山中贼易,破心中贼难”。发展科学技术比较容易,但人想战胜内心深处邪恶的想法比较困难,从技术角度的发展,人工智能技术一旦掌握在一些少数的有邪恶想法人的手里,人类就会面临灾难。所以人工智能技术未来的发展,尤其是在伦理道德方面的发展,是我们要重点关注的方面。
选自《中国人工智能学会通讯》
2022年第12卷第2期
AI领域专业技术的转移转化