从零开始学AI:人工智能基础概念解析

发表时间: 2024-07-11 15:09

本文将解释为什么我们认为人工智能是一个最值得研究的课题,并试图定义人工智能究竟是什么。这是开启人工智能学习之旅之前不错的准备。

我们称自己为智人(有智慧的人),因为智能(intelligence)对我们来说尤其重要。几千年来,我们一直试图理解我们是如何思考和行动的,也就是不断地了解我们的大脑是如何凭借它那小部分物质去感知、理解、预测并操纵一个远比其自身更大更复杂的世界。人工智能(artificial intelligence,AI)领域不仅涉及理解,还涉及构建智能实体。这些智能实体机器需要在各种各样新奇的情况下,计算如何有效和安全地行动。

人工智能经常被各种调查列为最有趣、发展最快的领域之一,现在每年创造的价值超过一万亿美元。人工智能专家李开复预测称,人工智能对世界的影响“将超过人类历史上的任何事物”。此外,人工智能的研究前沿仍是开放的。学习较古老科学(如物理学)的学生可能会认为最好的想法都已经被伽利略、牛顿、居里夫人、爱因斯坦等人发现了,但当下人工智能仍然为专业人员提供了许多机会。

目前,人工智能包含大量不同的子领域,从学习、推理、感知等通用领域到下棋、证明数学定理、写诗、驾车或诊断疾病等特定领域。人工智能可以与任何智能任务产生联系,是真正普遍存在的领域。

历史上研究人员研究过几种不同版本的人工智能。有些根据对人类行为的复刻来定义智能,而另一些更喜欢用“理性”(rationality)来抽象正式地定义智能,直观上的理解是做“正确的事情”。智能主题的本身也各不相同:一些人将智能视为内部思维过程和推理的属性,而另一些人则关注智能的外部特征,也就是智能行为。

从人与理性以及思想与行为这两个维度来看,有4种可能的组合,而且这4种组合都有其追随者和相应的研究项目。他们所使用的方法必然是不同的:追求类人智能必须在某种程度上是与心理学相关的经验科学,包括对真实人类行为和思维过程的观察和假设;而理性主义方法涉及数学和工程的结合,并与统计学、控制理论和经济学相联系。各个研究团体既互相轻视又互相帮助。接下来,让我们更细致地探讨这4种方法。

1. 类人行为:图灵测试方法

图灵测试(Turing test)是由艾伦·图灵(Alan Turing)提出的,它被设计成一个思维实验,用以回避“机器能思考吗?”这个哲学上模糊的问题。如果人类提问者在提出一些书面问题后无法分辨书面回答是来自人还是来自计算机,那么计算机就能通过测试。目前,为计算机编程使其能够通过严格的应用测试尚有大量工作要做。计算机需要具备下列能力:

  • 自然语言处理(natural language processing),以使用人类语言成功地交流;
  • 知识表示(knowledge representation),以存储它所知道或听到的内容;
  • 自动推理(automated reasoning),以回答问题并得出新的结论;
  • 机器学习(machine learning),以适应新的环境,并检测和推断模式。

图灵认为,没有必要对人进行物理模拟来证明智能。然而,其他研究人员提出了完全图灵测试(total Turing test),该测试需要与真实世界中的对象和人进行交互。为了通过完全图灵测试,机器人还需要具备下列能力:

  • 计算机视觉(computer vision)和语音识别功能,以感知世界;
  • 机器人学(robotics),以操纵对象并行动。

以上6个学科构成了人工智能的大部分内容。然而,人工智能研究人员很少把精力用在通过图灵测试上,他们认为研究智能的基本原理更为重要。

2. 类人思考:认知建模方法

我们必须知道人类是如何思考的,才能说程序像人类一样思考。我们可以通过3种方式了解人类的思维:

  • 内省(introspection)——试图在自己进行思维活动时捕获思维;
  • 心理实验(psychological experiment)——观察一个人的行为;
  • 大脑成像(brain imaging)——观察大脑的活动。

一旦我们有了足够精确的心智理论,就有可能把这个理论表达为计算机程序。如果程序的输入/输出行为与相应的人类行为相匹配,那就表明程序的某些机制也可能在人类中存在。认知科学(cognitive science)这一跨学科领域汇集了人工智能的计算机模型和心理学的实验技术,用以构建精确且可测试的人类心智理论。

在人工智能发展的早期,这两种方法经常会混淆。有作者认为,如果算法在某个任务中表现良好,就会是建模人类表现的良好模型,反之亦然。而现代作者将这两种主张分开,这种区分使人工智能和认知科学都得到了更快的发展。这两个领域相互促进,值得一提的是计算机视觉领域,它将神经生理学证据整合到了计算模型中。最近,将神经影像学方法与分析数据的机器学习技术相结合,开启了“读心”能力(即查明人类内心思想的语义内容)的研究。这种能力反过来可以进一步揭示人类认知的运作方式。

3. 理性思考:“思维法则”方法

希腊哲学家亚里士多德是最早试图法则化“正确思维”的人之一,他将其定义为无可辩驳的推理过程。他的三段论(syllogism)为论证结构提供了模式,当给出正确的前提时,总能得出正确的结论。举个经典的例子,当给出前提“苏格拉底是人”和“所有人都是凡人”时,可以得出结论“苏格拉底是凡人”。这些思维法则被认为支配着思想的运作,他们的研究开创了一个称为逻辑(logic)的领域。

19世纪的逻辑学家建立了一套精确的符号系统,用于描述世界上物体及其之间的关系。这与普通算术表示系统形成对比,后者只提供关于数的描述。到1965年,任何用逻辑符号描述的可解问题在原则上都可以用程序求解。人工智能中所谓的逻辑主义(logicism)传统希望在此类程序的基础上创建智能系统。

按照常规的理解,逻辑要求关于世界的认知是确定的,而实际上这很难实现。例如,我们对政治或战争规则的了解远不如对国际象棋或算术规则的了解。概率(probability)论填补了这一鸿沟,允许我们在掌握不确定信息的情况下进行严格的推理。原则上,它允许我们构建全面的理性思维模型,从原始的感知到对世界运作方式的理解,再到对未来的预测。它无法做到的是形成智能行为。为此,我们还需要关于理性行为的理论,仅靠理性思考是不够的。

4. 理性行为:理性智能体方法

智能体(agent)就是某种能够采取行动的东西。当然,所有计算机程序都可以完成一些任务,但我们期望计算机智能体能够完成更多的任务:自主运行、感知环境、长期持续存在、适应变化以及制定和实现目标。理性智能体(rational agent)需要为取得最佳结果或在存在不确定性时取得最佳期望结果而采取行动。

基于人工智能的“思维法则”方法重视正确的推断。做出正确的推断有时是理性智能体的一部分,因为采取理性行为的一种方式是推断出某个给定的行为是最优的,然后根据这个结论采取行动。但是,理性行为的有些方式并不能说与推断有关。例如,从火炉前退缩是一种反射作用,这通常比经过深思熟虑后采取的较慢的动作更为成功。

通过图灵测试所需的所有技能也使智能体得以采取理性行为。知识表示和推理能让智能体做出较好的决策。我们需要具备生成易于理解的自然语言句子的能力,以便在复杂的社会中生存。我们需要学习不仅是为了博学多才,也是为了提升我们产生高效行为的能力,尤其是在新环境下,这种能力更加重要。

与其他方法相比,基于人工智能的理性智能体方法有两个优点。首先,它比“思维法则”方法更普适,因为正确的推断只是实现理性的几种可能机制之一。其次,它更适合科学发展。理性的标准在数学上是明确定义且完全普适的。我们经常可以从这个标准规范中得出可以被证明能够实现的智能体设计,而把模仿人类行为或思维过程作为目标的设计在很大程度上是不可能的。

由于上述这些原因,在人工智能领域的大部分历史中,基于理性智能体的方法都占据了上风。在最初的几十年里,理性智能体建立在逻辑的基础上,并为了实现特定目标制定了明确的规划。后来,基于概率论和机器学习的方法可以使智能体在不确定性下做出决策,以获得最佳期望结果。简而言之,人工智能专注于研究和构建做正确的事情的智能体,其中正确的事情是我们提供给智能体的目标定义。这种通用范式非常普遍,以至于我们可以称之为标准模型(standard model)。它不仅适用于人工智能,也适用于其他领域。控制理论中,控制器使代价函数最小化;运筹学中,策略使奖励的总和最大化;统计学中,决策规则使损失函数最小;经济学中,决策者追求效用或某种意义的社会福利最大化。

然而在复杂的环境中,完美理性(总是采取精确的最优动作)是不可行的,它的计算代价太高了,因此需要对标准模型做一些重要的改进。后面会探讨有限理性(limited rationality)的问题,也就是在没有足够时间进行所有可能的计算的情况下,适当地采取行动。但是,完美理性仍然是理论分析的良好出发点。

5. 益机(beneficial machine)

自标准模型被提出以来,其一直是人工智能研究的指南,但从长远来看,它可能不是一个正确的模型,原因是标准模型假设我们总是为机器提供完全指定的目标。

人为定义的任务,如国际象棋或最短路径计算之类的,都附带固有的目标,因此标准模型是适用的。然而,在真实世界中,我们越来越难以完全正确地指定目标。例如,在设计自动驾驶汽车时,我们可能会认为目标是安全到达目的地。但是,由于存在其他司机失误、设备故障等原因,在任何道路上行驶都有可能受伤,因此,严格的安全目标是要求待在车库里而不要上路驾驶。向目的地前进和承担受伤风险是需要权衡的,应该如何进行这种权衡?此外,我们能在多大程度上允许汽车采取会惹恼其他司机的行动?汽车应该在多大程度上调控其加速、转向和刹车动作,以避免摇晃乘客?这类问题很难预先回答。在人机交互的整个领域,这些问题尤其严重,自动驾驶只是其中一个例子。

在我们的真实需求和施加给机器的目标之间达成一致的问题称为价值对齐问题(value alignment problem),即施加给机器的价值或目标必须与人类的一致。如果我们在实验室或模拟器中开发人工智能系统(就像该领域的大多数历史案例一样),就可以轻松地解决目标指定不正确的问题:重置系统、修复目标然后重试。随着人工智能的发展,越来越强大的智能系统需要部署在真实世界中,这种方法不再可行。部署了错误目标的系统将会导致负面影响,而且,系统越智能,其负面影响就越严重。

回想看似没有问题的国际象棋案例,想象一下,如果机器足够智能,可以推断并采取超出棋盘限制的动作,会发生什么。例如,它可能试图通过催眠或勒索对手,或贿赂观众在对手思考时发出噪声等手段来增加获胜的机会。它也可能会为自己劫持额外的计算能力。这些行为不是“愚蠢”或“疯狂”的,这些行为是将获胜定义为机器唯一目标的逻辑结果。

一台实现固定目标的机器可能会出现很多不当行为,要预测所有不当行为是不可能的。因此,我们有足够理由认为标准模型是不充分的。我们不希望机器“聪明”地实现它们的目标,而是希望它们实现我们的目标。如果我们不能将这些目标完美地传达给机器,就需要一个新的表述,也就是机器正在实现我们的目标,但对于目标是什么则是不确定的。当一台机器意识到它不了解完整的目标时,它就会有谨慎行动的动机,会寻求许可,并通过观察来更多地了解我们的偏好,遵守人为控制。最终,我们想要的是对人类可证益的(provably beneficial)智能体。

——————————————————