人工智能初探:机器学习的基础知识

发表时间: 2023-11-05 07:17

什么是人工智能?

在20世纪50年代,独立的研究人员开始开发第一批人工智能机器。在那之前,人工智能领域仅进行了一些小规模的实验,特别是在第二次世界大战期间的密码破译领域。当时,这是一个新兴领域,只有一些人似乎意识到了潜在的可能性。

现在,人工智能在涉及问题解决、学习、规划、推理和逻辑的多个领域中被广泛应用。它使计算机能够执行通常需要人类思维来完成的任务。要像人一样“思考”,计算机需要从中学习的数据。

人工智能在人们心目中拥有一种近乎神秘的地位。我敢打赌,如果你对大多数人说“人工智能”,他们会想象出机器人在四处走动并像人类一样行动的画面。这种对人工智能的科幻化看法会让人们在听到这个术语时感到警惕。但实际上,并没有听上去那么可怕。它在医疗、商业、交通和通信领域都取得了很大的成就。尽管在这个领域已经取得了令人印象深刻的进展,但计算机拥有自主意识的误解仍然遥不可及。不过,自动驾驶汽车以及能够进行对话的计算机和手机的出现引发了人们的想象力。

虽然听起来更像是科幻小说中的情节,但人工智能现在已经深入到我们的日常生活中。如果一开始听起来让你感到不安,让我提醒你一下,人工智能近年来已经为我们的生活带来了许多技术。

上次你打开Netflix时,你在浏览一个列表,该列表基于你观看的节目和重复观看的电影生成了一些数据,并为你创建了另一个推荐列表。这个列表中包含了它根据你已经喜欢的内容预测你可能会喜欢的电影。这是通过机器学习完成的,它是人工智能的一个子领域。

如果你有智能手机,你可能会使用语音命令来免提搜索事物。你告诉手机你在寻找你所在地区的咖啡馆,手机会回应:“正在搜索你所在地区的咖啡馆。”几秒钟内,一系列搜索结果就会出现,而你甚至不需要输入任何内容。它识别了你的声音并理解了你的话。这是自然语言处理的一部分,也是机器学习的一个子领域。每当你打开你的电子邮件帐户并标记垃圾邮件时,你的电子邮件主机都在学习如何更好地识别垃圾邮件。这是另一种类型的机器学习。

因此,人工智能不一定是有意识的机器人,想要像我们所知道的那样接管一切。目前,它比那要温和得多。它也非常有帮助,能够学习我们无法明确编程的事物。

人工智能需要一种叫做人工推理的东西,也称为机器推理。当人类学习新知识并得出结论时,我们经历一种称为归纳推理的过程。我们利用信息片段来得出新的结论。通常,没有一套固定的规则可以遵循。我们通过经验学习,通过累积经验制定自己的规则。例如,我可以告诉你去年12月下雪了15次。因此,今年12月也会下雪。一月份的每一天都很冷,所以这个一月份的每一天也会很冷。因此,我应该带上外套。

我们并不是生来就知道每年12月都会下雪,或者一月份天气寒冷。我们通过经验学到这些知识,并使用归纳推理来概括未来的12月和一月。基于我们的归纳推理,我们做出了理性的决策,准备好在下个冬天带上外套。

我们所经历的,比如在12月看到雪,然后在1月感到寒冷,代表着我们的“数据”。这些是来自我们环境的输入,我们不断地从中学习。

人类与机器的思维方式不同,因为我们不是解释数值数据模式。我们从积极和消极的奖励以及我们在日常生活中经历的感觉中学习。让计算机使用归纳推理将使我们更接近具有“类似人类”的机器。

因此,要使计算机学习,它们需要有数据进行学习。数据通常需要是数值的,这样它可以被数学模型和算法解释。如果我们给计算机足够的数据,它将创建参数来设计自己的模型或算法,以根据以前的经验来预测新情况。这是机器学习的基础。通过提供计算机经验,使其能够通过归纳推理来预测未来的新结果。

人工智能尤其有趣,因为在某些任务上,计算机已经优于人类。它们可以在几秒钟内对具有数千个输入的数据集进行数学推断。地球上没有人能够如此迅速地处理这种信息。如果我们能够使用机器学习来分析具有100个变量的复杂数据集,我们可能能够了解到非常复杂且难以手动区分的趋势和模式。这就是使计算机成为如此有用的工具的原因,也是它们为数据科学取得巨大进展的原因。使用计算机进行数据分析可以更容易地发现你甚至不知道存在的模式和相似之处,或者可能根本没有考虑到。

在其他一些任务中,计算机的表现非常糟糕。对我们来说,其中一些任务似乎非常简单,比如区分猫的图片和狗的图片。但对于计算机来说,这是极其复杂的任务。这就是人工智能当前的挑战所在,弥合人类能够进行的归纳推理类型和计算机擅长的推理类型之间的差距。

重要术语:归纳推理。根据经验和环境中的信息进行概括性的推断。

能够根据我们对猫和狗的知识,看出这些图片之间的差异;这就是我们所知道的推理。人工智能的目标是教会计算机如何具备类似人类推理的能力。

计算机模型已被用于处理自然语言。自然语言处理赋予计算机理解“自然”语言的能力,或者我们所称的人类语言。自然语言处理依赖于机器学习技术来理解语音和文本,并对命令和互动作出响应。

这项技术正在变得非常普遍和可获得。图形处理单元(GPU)变得更加广泛可用且价格更便宜,这意味着数据集变得更大,机器学习的应用范围也在扩大。当你与iPhone上的Siri对话时,你可能已经在使用它。当你对Siri说些什么时,你的手机会接收到音频。为了解释它,它将你的音频转换为文本。然后你的手机会分析文本,以从你给它的命令中获取含义。

自然语言处理是机器学习最常见的应用之一,我们每天都在使用它。当我们在互联网上使用搜索功能时,我们正在使用自然语言处理。翻译应用程序必须接受我们的语音或文本,并分析句子结构以理解含义。当你写论文或Word文档时,你的文字处理器使用自然语言处理来检查语法错误和拼写错误。

尽管它很受欢迎,但这是计算机科学和人工智能领域非常复杂的一个领域。能够解释以几乎无限数量的组合排列的字母的含义需要大量的数据,以便计算机能够理解你的书写或言辞。

除了能够理解我们所说和写的内容,计算机还可以基于它们从1990年代的数据中学到的东西做出战略决策。IBM创造了一台名为“深蓝”的计算机,它击败了国际象棋世界冠军。这是第一台能够执行这样任务的计算机。由于国际象棋规则的简单性,IBM的计算机科学家选择训练他们的计算机来下棋。但一旦游戏开始,棋子可以采取成千上万种潜在的走法和排列方式。计算机必须通过数据来学习这一点。

机器学习与其他计算机科学类型不同的地方在于模型具有随时间改变其方法以适应新数据的能力。机器学习模型与常规的明确代码不同之处在于,机器学习会接受新数据并改进自身。它还可以执行需要规划和包含战略组成部分的任务。深蓝计算机必须擅长分析可能的移动序列,而不仅仅是一次移动一步。

使计算机能够击败国际象棋世界冠军的相同技术现在使无人驾驶车辆有可能将乘客安全从点A送到点B。与国际象棋的相对简单性相比,无人驾驶汽车必须规划和解释数百个变量,以确保乘客的安全。它超越了下国际象棋的机器所用的二维数据分析。无人驾驶汽车必须掌握多维数据分析,以应对不断变化的道路环境。

机器通过反复尝试和错误学习,从失败和成功中学习。这些经验被引入为数据,随着时间的推移,机器将知道对于每个可能的移动,其失败或成功的概率是多少。

机器学习模型解释环境中的潜在状态。对于下国际象棋的算法来说,这就是它的所有可能走法和所有竞争对手的可能走法。算法是目标和潜在行动的综合体。通过使用这些数据,它创建了一个计划,以优化实现目标的可能性。它还使计算机能够在没有特定编程方向的情况下进行自主学习。

在理论上,让计算机执行所有这些任务听起来比实际上要简单。我们刚才提到的大多数功能,从跳棋到无人驾驶汽车,都需要先进的统计技术来优化结果,并训练一台机器,使其以高精度“获胜”。

机器学习属于更大范畴的人工智能领域。人工智能是计算机科学的一个分支,包括推理、自然语言处理、规划和机器学习。这个术语最早由计算机科学家约翰·麦卡锡(John McCarthy)于1956年首次提出。你可能也会听到数据科学(data science)这个术语,它包括了人工智能和机器学习。数据科学是一个更广泛的术语,但通常用来描述机器学习。机器学习专家通常被称为数据科学家,不仅仅在本书中如此,在其他地方也是如此。数据科学和机器学习之间存在重叠,但它们并不是完全相同的概念。数据科学是一个更一般的术语,而机器学习是数据科学的一部分。