自从OpenAI接连抛出ChatGPT、SORA之后,GenAI(生成式AI)推动着人工智能开始快速进入了大众的视野,从文本、图片到视频,热度不减,很多AI应用及其软件APP如雨后春笋般地冒了出来,人工智能是否又会像当初的计算机、互联网、智能手机等一样,极大地影响和改变我们的生活和工作?如果答案是肯定的话,那么它最基本的知识和概念,我们就有必要简单地了解和知晓一些,比如下面所要提到的机器学习(ML:Machine Learning)。
什么是机器学习:定义和示例
机器学习是人工智能的一个子集,它使系统能够学习和优化流程,而无需始终如一地进行编程。简而言之,机器学习使用数据、统计数据和反复试验来“学习”特定任务,而无需为该任务进行专门编程。
机器学习是人工智能的一个重要子领域,它使用无数算法在机器中实现类似人类的学习模式。
机器学习是人工智能的一个子领域,其中系统能够通过数据、统计数据和试错来“学习”,来优化流程,并以更快的速度进行创新。机器学习使计算机能够开发类似人类的学习能力,这使它们能够解决一些世界上最棘手的问题,从癌症研究到气候变化。
大多数计算机程序依靠代码来告诉它们要执行什么或要保留哪些信息(即广为人知的显式知识)。这些知识包含任何易于编写或记录的内容,例如教科书、视频或手册。通过机器学习,计算机获得了隐性知识,或者我们从个人经验和上下文中获得的知识。这种类型的知识很难通过书面或口头交流从一个人转移到另一个人。
面部识别是一种隐性知识。我们能认出一个人的脸,但我们很难准确地描述我们如何或为什么能认出它。我们依靠我们的个人知识库来连接点,并根据他们的脸立即识别一个人。另一个例子是骑自行车,向别人展示如何骑自行车比解释它要容易得多。
计算机不再需要依赖数十亿行代码来执行计算。机器学习为计算机提供了隐性知识的力量,使这些机器能够建立联系,发现模式,并根据过去学到的知识进行预测。机器学习对隐性知识的使用,使其成为从金融科技到天气和政府等几乎所有行业的首选技术。
深度学习是机器学习中的一个子领域,它因其从数据中提取特征的能力而受到关注。深度学习使用人工神经网络 (ANN:Artificial Neural Networks) 从原始数据中提取更高级别的特征。人工神经网络虽然与人类大脑有很大不同,但受到人类生物处理信息方式的启发。计算机所做的学习被认为是“深度”的,因为网络使用分层来学习和解释原始信息。
例如,深度学习是图像处理的重要资产,从电子商务到医学图像,无所不包。谷歌正在为其程序配备深度学习功能,以发现图像中的模式,以便为您搜索的任何内容显示正确的图像。如果你搜索一件冬季夹克,谷歌的机器和深度学习将联手发现图片中的图案——尺寸、颜色、形状、相关品牌名称——这些图案显示了满足你查询的相关夹克。
深度学习在放射学、病理学和任何严重依赖图像的医疗领域也遇到了阻力。该技术依靠其隐性知识(通过研究数百万次其他扫描)立即识别疾病或伤害,从而为医生和医院节省时间和钱。
机器学习编译输入数据,这些数据可以是从培训课程或其他来源收集的数据,例如数据集搜索引擎、.gov 网站和 Amazon Web Services 等开放数据注册表。这些数据的功能与人类先前的经验相同,为机器学习模型提供历史信息,以便在做出未来决策时使用。
然后,算法分析这些数据,搜索模式和趋势,使他们能够做出准确的预测。通过这种方式,机器学习可以从过去收集洞见,以预测未来发生的事情。通常,团队可以提供给机器学习软件的数据集越大,预测就越准确。
这个想法是,机器学习算法应该能够自己执行这些任务,只需要最少的人为干预。随着机器学习在不同行业的许多方面实现自动化,就加快了各种流程。
与所有具有 AI 的系统一样,机器学习需要不同的方法来建立参数、操作和最终值。支持机器学习的程序有多种类型,它们探索不同的选项并评估不同的因素。有一系列机器学习类型,这些类型根据数据大小和多样性等几个因素而有所不同。以下是一些最常见的机器学习类型,可以对流行的机器学习算法进行分类。
监督学习涉及包含输入和输出信息的数据的数学模型。机器学习计算机程序不断输入这些模型,因此程序最终可以根据一组新的输入来预测输出。
回归和分类是监督学习下比较流行的两种分析。回归分析用于发现和预测结果变量与一个或多个自变量之间的关系。这种方法通常称为线性回归,它提供训练数据来帮助系统进行推理和预测。分类用于训练系统识别对象并将其置于子类别中。例如,电子邮件过滤器使用机器学习来自动执行主收件箱、促销收件箱和垃圾邮件收件箱的传入电子邮件流。
无监督学习包含只有输入的数据,然后以聚类或分组的形式向数据添加结构。该方法从先前未标记或分类的测试数据中学习,然后根据共性对(缺乏共性的)原始数据进行分组。聚类分析使用无监督学习对巨大的原始数据湖进行排序,以将某些数据点组合在一起。聚类是一种流行的数据挖掘工具,它被用于从基因研究到与志同道合的人创建虚拟社交媒体社区的方方面面。
半监督学习介于无监督学习和监督学习之间。它不是向程序提供所有标记数据(如监督学习)或不提供标记数据(如无监督学习),而是向程序提供混合数据,这些数据不仅加快了机器学习过程,而且帮助机器识别对象并提高学习的准确性。
通常,程序员会引入少量标记数据,其中包含大量未标记的信息,计算机将不得不使用结构化数据组来对其余信息进行聚类。标记受监督的数据被视为一项艰巨的任务,因为成本高昂且花费了数百小时。
这里有一个方便的方法来记住机器学习类型之间的差异:监督学习就像一个学生,让老师在学校和家里不断地看着你。无监督学习是告诉学生自己弄清楚一个概念。半监督学习就像给学生上一堂课,然后用与该主题相关的问题来测试他们。每种机器学习类型都有其优点和缺点,并且都是根据数据科学家或工程师的参数和需求来使用的。
【未完待续】
农历甲辰三月廿一
2024.4.29
【部分图片来源网络,侵删】