生成式AI：企业创新的催化剂

发表时间: 2024-04-19 17:26

利用深度学习模型，生成式人工智能表现出独特的能力，可以解释不同的输入类型，并跨各种模式无缝生成新内容。

编者按：以下是为 DZone 的 2024 年趋势报告《企业 AI：知识工程的新兴格局》撰写并发表在其中的文章。

生成式 AI 是人工智能（AI）的一个子集，是一种变革性技术。利用深度学习模型，它展示了一种独特的能力，可以解释文本、图像、音频、视频或代码中的输入，并跨各种模式无缝生成新颖的内容。这项创新具有广泛的应用，从将文本输入转换为视觉表示，到将视频转换为文本叙事。它的熟练程度在于它能够生成高质量和与上下文相关的输出，这证明了它在重塑内容创作方面的潜力。图 1 中显示了生成式 AI 的一个应用，其中文本提示已转换为图像。

图 1.达尔·E 2 从文本提示生成图像

生成式 AI 之旅

人工智能的迷人旅程始于几个世纪前，下表 1 突出了生成式 AI 发展的关键里程碑，涵盖了多年来的重大发布和进步：

表 1.生成式 AI 发展的关键里程碑

主要发布
1805：第一个神经网络（NN）/线性回归	1997 年：引入 LSTM
1925 年：第一个递归神经网络（RNN）架构	2014年：变分自动编码器，GAN，GRU
1958 年：多层感知器——没有深度学习	2017：变形金刚（电影）
1965：第一次深度学习	2018年：GPT，BERT
1972 年：发表人工 RNN	2021年：DALL·E
1980 年：发布自动编码器	2022年：潜伏扩散，DALL·E 2、Midjourney、Stable Diffusion、ChatGPT、AudioLM
1986年：反向传播的发明	2023 年：GPT-4、Falcon、Bard、MusicGen、AutoGPT、LongNet、Voicebox、LLaMA
1990年：推出GAN/Curiosity	2024年：Sora，Stable Cascade
1995 年：发布 LeNet-5

跨模态的生成式 AI

生成式人工智能涵盖多种模式，如下表 2 所示，展示了其多功能：

表 2.生成式 AI 模式和主要开源工具

形态	工具
发短信	OpenAI GPT、Transformer 模型（TensorFlow、PyTorch）、BERT （Google）
法典	CodeT5、PolyCoder
图像	StyleGAN （NVlabs）， DALL·E（OpenAI）、CycleGAN（junyanz）、BigGAN（谷歌）、Stable Diffusion、StableStudio、Waifu Diffusion
音频	WaveNet （DeepMind）， Tacotron 2 （Google）， MelGAN （descriptinc）
3D 对象	3D-GAN、PyTorch3D
视频	使用 GAN 生成视频、时间生成对抗网络（TGAN）生成视频

生成式 AI 如何工作？

生成式 AI 利用 transformer 模型、生成对抗网络和变分自动编码器等开创性模型来充分发挥其潜力。

变压器模型

Transformer 架构依赖于自注意力机制，摒弃了递归神经网络中的顺序处理约束。该模型的注意力机制允许它以不同的方式权衡输入标记，从而能够捕获长程依赖关系并改进训练期间的并行化。转换器由编码器-解码器结构组成，具有多层自注意力和前馈子层。像 OpenAI 的 GPT 系列这样的模型利用 transformer 架构进行自回归语言建模，其中每个令牌都是根据前面的上下文生成的。

自我注意力的双向性，加上有效处理上下文依赖性的能力，导致创建连贯且与上下文相关的序列，使转换器成为开发大型语言模型（LLM）的基石，用于各种生成应用程序，如机器翻译、文本摘要、问答和文本生成。

图2. Transformer 架构

生成对抗网络

生成对抗网络（GAN）由两个神经网络组成，即判别器和生成器，通过对抗训练运行，在无监督学习中取得无与伦比的结果。由随机噪声驱动的生成器试图欺骗鉴别器，而鉴别器又旨在准确区分真实和人工产生的数据。这种竞争性互动推动两个网络不断改进，生成逼真和高质量的样本。GAN在众多应用中具有多功能性，特别是在图像合成、风格转换和文本到图像合成方面。

变分自动编码器

变分自动编码器（VAE）旨在捕获和学习输入数据的潜在概率分布，使它们能够生成具有相似特征的新样本。VAE的架构由一个编码器网络和一个解码器网络组成，前者负责将输入数据映射到潜在空间，后者从潜在空间表示中重建输入数据。

VAE的一个关键特征在于它们能够通过学习潜在空间中的概率分布来模拟数据中固有的不确定性。这是通过引入变分推理框架来实现的，该框架在训练期间包含概率抽样过程。他们的应用跨越了各个领域，包括图像和文本生成，以及复杂高维空间中的数据表示学习。

图3.从图像生成Q/A

最先进的技术

生成式人工智能凭借其颠覆性创新，对整个行业产生了深远的影响。

生成式用例和应用

生成式人工智能在各行各业中都有广泛的应用，彻底改变了流程并促进了创新。表 3 展示了它如何重塑各个行业：

表 3.生成式AI在各行各业的应用

扇形	应用
医疗	医学图像生成和分析、药物发现、个性化治疗计划
金融	个性化的风险评估和财务建议，合规监控
营销	内容创作、广告文案生成、个性化营销活动
制造业	用于产品设计的 3D 模型生成
零售	个性化产品推荐，虚拟试妆体验
教育	自适应学习材料，电子学习平台的内容生成
法律	文件摘要、合同起草、法律研究协助
娱乐	剧本创作协助、视频游戏内容生成、音乐创作
人力资源	员工培训内容生成

业务优势

生成式人工智能提供了无数的商业优势，包括扩大创意能力，使企业能够自主地制作广泛的创新内容。它通过自动执行以前需要人工干预的任务，创造了显着的时间和成本效率。超个性化体验是通过客户数据实现的，根据个人喜好生成推荐和优惠。

此外，生成式人工智能通过自动化复杂的流程、优化工作流程以及促进培训和娱乐的逼真模拟来提高运营效率。该技术的自适应学习功能允许根据反馈和新数据进行持续改进，最终随着时间的推移实现改进的性能。最后，生成式 AI 提升了客户与动态 AI 代理的交互，这些代理能够提供模仿人类对话的响应，有助于增强客户体验。

管理生成式 AI 的风险

有效管理与生成式人工智能广泛采用相关的风险至关重要，因为该技术改变了各个业务方面。专注于准确性、安全性、诚实性、赋权和可持续性的道德准则为负责任的人工智能开发提供了框架。集成生成式 AI 需要使用可靠的数据，确保透明度，并保持人机交互的方法。持续的测试、监督和反馈机制对于防止意外后果至关重要。

面向企业的生成式 AI

本节深入探讨了企业在创新和生产力方面实现变革性飞跃的关键方法。

构建基础模型

BERT 和 GPT 等基础模型（FM）在广泛、通用和未标记的数据集上进行训练，使它们能够在各种任务中表现出色，包括语言理解、文本和图像生成以及自然语言对话。这些 FM 可作为专业下游应用的基本模型，经过十多年的发展，可以处理日益复杂的任务。在推理过程中不断从数据输入中学习的能力增强了其有效性，支持语言处理、视觉理解、代码生成、以人为本的参与和语音转文本应用程序等任务。

图4. 基础模型

自带模型（BYOM）致力于扩大平台的多功能性、营造协作环境并推动 AI 创新的新时代。BYOM的承诺在于创新的自由，为符合个人愿景的AI解决方案提供个性化的方法。改进现有模型涉及多方面的方法，包括微调、数据集增强和架构增强。

微调

虽然预训练语言模型具有在大量数据集上进行训练和生成类似于人类语言的文本的优势，但它们可能并不总是在特定应用程序或领域中提供最佳性能。微调涉及使用新信息或数据更新预训练模型，使它们能够适应任务或领域。微调预训练模型对于在生成输出时实现高精度和相关性至关重要，尤其是在处理各个领域中的特定和细微任务时。

从人类反馈中强化学习

从人类反馈中强化学习（RLHF）的主要目标是利用人类反馈来提高 ML 模型的效率和准确性，特别是那些采用强化学习方法来最大化奖励的模型。RLHF 过程涉及数据收集、语言模型的监督微调、构建单独的奖励模型以及使用基于奖励的模型优化语言模型等阶段。

检索增强生成

LLM 在问答和语言翻译等任务中发挥了重要作用。然而，固有的挑战，如潜在的不准确性和训练数据的静态性质，可能会影响可靠性和用户信任。检索增强生成（RAG）通过将特定领域或组织知识无缝集成到 LLM 中来解决这些问题，从而增强其相关性、准确性和实用性，而无需重新培训。

图5.检索增强生成

技术栈

LLMOps 技术堆栈包括五个关键领域。下表显示了五个技术堆栈领域的关键组件：

表 4. LLMOps技术堆栈组件

堆垛面积	关键部件
数据管理	数据存储和检索数据处理质量管理数据分布
模型管理	托管模型模型测试版本控制和模型跟踪模型训练和微调
模型部署	框架事件驱动架构
及时的工程设计和优化	快速开发和测试及时分析提示版本控制提示链接和编排
监视和日志记录	性能监控伐木

绩效评估

定量方法提供客观指标，利用初始分数、Fréchet 初始距离或分布的精确度和召回率等分数来定量测量生成的数据分布和真实数据分布之间的一致性。定性方法深入研究视觉和听觉检查，采用视觉检查、成对比较或偏好排序等技术来衡量生成数据的真实性、连贯性和吸引力。混合方法集成了定量和定性方法，如人机交互评估、对抗性评估或图灵测试。

下一步是什么？生成式 AI 的未来

展望生成式人工智能的未来，有三条变革性途径脱颖而出。

通用人工智能的起源

通用人工智能（AGI）的出现预示着一个变革性的时代。AGI旨在超越当前的AI限制，使系统能够在预定义领域之外的任务中表现出色。它通过自主的自我控制、自我理解以及获得类似于人类解决问题能力的新技能的能力来区分自己。这一关头标志着追求AGI的关键时刻，设想了一个人工智能系统拥有广义人类认知能力并超越当前技术限制的未来。

通过人类感官整合感知系统

感官 AI 站在生成式 AI 发展的最前沿。除了计算机视觉之外，感官人工智能还包括触觉、嗅觉和味觉，旨在对世界进行细致入微的、类似人类的理解。对各种感官输入的强调，包括触觉传感、嗅觉和味觉人工智能，标志着向类似人类的交互和识别能力迈进。

计算意识建模

计算意识建模（CoCoMo）专注于公平、同理心和透明度等属性，采用意识建模、强化学习和提示模板制定来向 AI 代理灌输知识和同情心。CoCoMo 引导生成式 AI 走向道德和情感维度与计算能力无缝共存的未来，培养负责任和善解人意的 AI 代理。

离别的思念

本文讨论了跨模态各种应用的基本概念，并深入研究了这些机制，重点介绍了 Transformer 模型的强大功能以及 GAN 和 VAE 的创造力。这一旅程包括商业利益、风险管理，以及对前所未有的进步以及 AGI、感官 AI 和人工意识的潜在出现的前瞻性视角。最后，我们鼓励人们思考生成式人工智能的未来影响和伦理层面，承认将生成式人工智能融入我们日常生活的变革之旅既带来了机遇，也带来了责任。

原文标题：

Introduction to Generative AI: Empowering Enterprises Through Disruptive Innovation

原文链接：

https://dzone.com/articles/introduction-generative-ai-empowering-enterprises

作者：Tuhin Chattopadhyay

编译：LCR