探索AIGC:初次接触人工智能的奇妙世界

发表时间: 2024-03-13 19:33

什么是AIGC

AIGC(Artificial Intelligence Generated Content / AI-Generated Content)中文译为人工智能生成内容,一般认为是相对于PCG(专业生成内容)、UCG(用户生成内容)而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。

AIGC的运作原理

AIGC依赖于可以从数据中学习并生成类似于原始数据分布的心得数据的生成模型。生成模型可以分为两类:生成对抗网络(GAN)模型和自然语音生成(NLG)模型。

  • GAN由两个神经网络组成:生成器和鉴别器。生成器尝试从随机噪声向量创建逼真的图像,而鉴别器则尝试区分来自数据集的真实图像和来自生成器的假图像。这两个网络相互竞争,直到他们达到平衡,此时生成器生成的图片与鉴别器无法区分的真实图像。
  • NLG模型基于转换器,转换器是一种神经网络架构,使用注意机制来捕获自然语言文本中单词之间的远程依赖关系。Transformers 由一个将输入文本编码为隐藏表示的编码器和一个从隐藏表示生成输出文本的解码器组成。Transformer 可以使用自监督学习方法(例如掩码语言建模(MLM)或因果语音建模(CLM))在大规模文本语料库上进行训练。然后可以针对文本摘要、机器翻译或文本生成等特定任务对预训练的转换器进行微调


AIGC主要技术组成(详细AIGC的底层逻辑讲解)

聚焦AIGC:内容皆可生

ChatGPT、GPT-4这些AIGC目前深深吸引了我们得目光。要清楚的认识这些新事物之前,我们要先梳理一下数年硝烟弥漫的“内容大战”中的历史脉络,我们已经悄然经历了多种内容形式的迭代:PGC(professional generated content)、UGC(user generated content)和AIUGC(artificially intelligent UGC)。


PGC即“专业生产内容”,主要指具备专业背景的内容生产者所创造的内容;

UGC则为“用户生产内容”,其聂荣的源头更偏大众化,人人都可以作为用户进行内容生产;

AIUGC则为人工智能与UGC的结合,人工智能参与到用户的创作内容的过程中。


如今,在三度更迭之后,AIGC正式来袭。与PGC、UGC和AIUGC不同的是,在AIGC的概念中,“无生命的”人工智能成了完全的内容源头,“无生命主体”成了为人类创作内容的生产者。


里程碑式的存在--ChatGPT

ChatGPT,它最近肯定在大家面前疯狂刷屏,大家即使不了解它,也早就对这个名字耳熟能详了。那么它到底是什么呢?其实ChatGPT是一个由OpenAI公司推出的大型语言模型(large language model,LLM),它能帮助开发人员使用自然语言理解来增强聊天机器人和智能应用程序的功能,可以处理各种任务,如撰写文章、提供建议、回答问题等。


2022年11月推出后,ChatGPT因其强大的功能爆红,用户数量暴增,仅2个月就达成了用户破亿的目标,成为史上用户最快破亿的应用。而达成这一目标,TikTok用了9个月,这足以说明ChatGPT的受欢迎程度了。


ChatGPT的火爆其实不仅在于它聊天能力强,用户更多的是看重了它“十八般武艺,样样都会”。有人让它回答脑筋急转弯,它并没有被绕进去,很快就得出了答案;有人让它写一篇关于“秦始皇摸电门,赢麻了”的文章,它写得有模有样,并没有对这个离谱的主题提出质疑;有人让它写社交平台上的宣发文案,它连图形符号都用得难辨真假;甚至有网友训练它说北京话,在一来一回的对话训练中,它很快就学会了北京话的口语性表达,强大的学习能力不禁让人怀疑对面是不是有真人在操控。还有人让它写策划、写文案、编代码、写诗……这么一个具备强大功能的程序,当然会受到各界人士的欢迎。许多人让它帮助自己工作,成为代替自己的“二代打工人”。


据美国杂志PCMag报道,谷歌曾经给ChatGPT提供了面试程序员的问题,结果它不仅没被难倒,甚至还被判定为具备三级软件工程师的水准,简直让人瞠目。目前,ChatGPT已经开始入侵职场,根据职业咨询平台ResumeBuilder.com的最新报告,在1000家企业调查样本中,49%的企业目前正在使用ChatGPT,主要应用在协助招聘、编写编码等工作中。报告还称,从2022年11月ChatGPT上线后,不少企业已经将ChatGPT投入了应用,在这之中,有48%的企业开始利用ChatGPT代替员工工作,25%的企业已经通过ChatGPT节约了75000美元以上的成本,这简直给部分岗位的工作者带来了失业的隐患!

ChatGPT发展历程


ChatGPT作为一款自然语言处理模型,通过学习语料中词汇之间的组合规律和逻辑,生成合理的接续,实现内容的创作。这类似一个“接龙”的过程,ChatGPT根据上文计算并生成下一个词,然后继续生成下面的词,从而完成一句话或者长文,也就是“自回归生成”。因此,虽然训练ChatGPT使用的语料都是现有的已经被创作出来的,但是其创作内容不是“抄袭”,不是简单的复制和粘贴,而是在现有语料的基础上学习词与词之间的逻辑,创作出新的内容。


ChatGPT的能力并不是一蹴而就的,提到“神器”ChatGPT的前世 今 生 , 那 可有 太 多 故 事 了 。 其 实 ChatGPT 的 “ 前 世 ” 与Transformer(变换器)模型关系紧密,由于Transformer模型诞生于2017年,因此我们的故事得从2017年说起。


2017年,谷歌大脑团队在神经信息处理系统大会发表了一篇名为《注意力是你所需要的全部》(Attention Is All You Need)的论文。这篇论文的作者在文章中第一次提出了一个基于注意力机制的Transformer模型,并且把这个模型首次用在理解人类的语言上,这就是自然语言处理。谷歌大脑团队利用非常多已经公开的语言数据集来训练这个最初的Transformer模型,而这个Transformer模型包括6500万个可调参数。

经过大量的训练后,这个Transformer模型在英语成分句法分析、翻译准确度等多项评分上都在业内达到了第一的水准,世界领先,成为当时最为先进的大型语言模型。

而Transformer模型从诞生之时,也极为深刻地影响了后续人工智能技术的发展道路。仅几年内,这个模型的影响力就已经渗透到人工智能的各个领域,包括多种形式的自然语言模型,以及预测蛋白质结构的AlphaFold 2模型等。也就是说,它就是后续许多功能强大的AI模型的源头。在Transformer模型爆火后,有许多团队都在跟进研究这一模型,推出ChatGPT的OpenAI公司也是专注于研究Transformer模型的其中一家公司。

在Transformer模型被推出还不足一年的2018年,OpenAI公司有了自己的技术突破,他们发表了论文《用生成式预训练提高模型的语言理解力》(Improving Language Understanding by Generative Pre training),还推出了具备1.17亿个参数的GPT-1模型。GPT-1模型是一个基于Transformer结构的模型,但训练它的数据集更为庞大。

OpenAI公司利用一款经典的大型书籍文本数据集(BookCorpus)对GPT-1模型进行了模型预训练,这个数据集包括7000多本未出版的图书,并涵盖多种类型,如言情、冒险、恐怖、奇幻等。在对模型进行预训练后,OpenAI还在四种不同的语言场景下,利用多种相异的特定数据集对模型做了进一步的训练。而最终训练出的模型GPT-1,在文本分类、问答、文本相似性评估、蕴含语义判定这四个评价维度上,都取得了比基础Transformer模型更好的结果,因此也取代Transformer模型,摇身一变成为新的业内龙头。

在发布GPT-1后的一年,OpenAI公司又公布了一个“升级版”的模型——GPT-2。这个模型的架构与GPT-1的原理是相同的,只是规模比GPT-1大了10倍多,具有15亿个参数,刷新了这种大型语言模型在多项语言场景中评分的纪录。

在2020年,OpenAI公司再接再厉,推出了取代GPT-2的GPT-3模型——这个模型包含1750亿个参数。GPT-3模型的架构也与它的“前任”GPT-2没有本质区别,只是规模更大了。当然,GPT-3的训练集比前两个GPT模型要大得多:它包含两个相异的书籍数据集(一共670亿词符)、已经过基础过滤的全网页爬虫数据集(4290亿词符)、维基百科文章(30亿词符)。

由于GPT-3包含太过庞大的参数数目,训练所需数据集的规模也非常巨大,因此成本也很高——保守估计,训练一个GPT-3模型需要500万美元至2000万美元。用于训练的GPU越多,成本越高,时间越短;反之也是如此。在使用中,用户通过提供提示词,甚至完全没有提示,直接询问,就可收获高质量的答案。由于GPT-3并没有给用户提供合适的交互界面,而且还有一定的使用门槛,所以使用过GPT-3模型的用户并不是很多。


在2022年神经信息处理系统大会中,OpenAI公司再次向大家宣布 了 它 的 新 突破 , 它 又 推 出 了 全 新 的 大 型 语 言 预 训 练 模 型 :ChatGPT。GPT-3.5是ChatGPT的前身,也是OpenAI对GPT-3模型进行微调后开发出来的模型,在GPT-3.5诞生后,ChatGPT才横空出世。至此,我们所讲述的主角诞生,ChatGPT也是目前使用最为广泛的一款自然语言处理程序,简直称得上是“AI界的顶流”了!


2023年3月 ChatGPT 4,ChatGPT Plus 的发布。OpenAI 称它是「最先进的系统,能生产更安全和更有用的回复」。和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力,在创意、视觉输入和长内容上表现都更好了。用在创意项目上,它能帮助用户一起创作歌曲、编写剧本或者学习用户的写作风格。除了文本以外,你还能把图片作为输入内容给 GPT-4,它不仅能够识别出图中的物件,还能根据这些信息进一步处理内容。

据 OpenAI 介绍,GPT-4 展示了「在多种专业和学术指标下展现了人类水平的表现


ChatGPT应用

从宏观角度看完了与ChatGPT有关的产业发展,下面我们来谈谈与日常生活切实相关的话题,那就是ChatGPT究竟有什么用,或者说它能给我们带来什么。

从全网的报道中我们都能了解到,ChatGPT能在一定程度上帮人们承担部分工作,减轻人们的负担,具备十分广泛的应用场景,下面我们举例说明。

快速阅读和总结:会议马上要开始了,你有一份文件还没看,阅读完所有内容需要很久,但是你的时间非常紧张,这时候你可以将文件复制并粘贴到ChatGPT的聊天框中,并要求它为你总结文件中最重要的内容。这项工作ChatGPT已经驾轻就熟了,你有机会就可以尝试一下。

客户服务和支持:ChatGPT能够以即时聊天或电子邮件的方式与客户进行交互,来解决客户的问题和疑虑,并同时提供支持和指导。面对ChatGPT时,你只需给它一个非常简单的提示,比如“写一封给客户的问候邮件”,ChatGPT就会给出它生成的例子。你对输出的结果不满意也不要紧,只需要略微改动一下提示再来一遍,就可以得到完全不一样的内容,ChatGPT几乎不会给你两遍相同的内容。


交互问答:ChatGPT能够作为一种在线学习平台,在交互中回答问题,并提供相应的帮助。比如你花费一个周末的时间学习了古罗马历史,现在你想对自己的知识储备进行测试。ChatGPT可以轻而易举地给你提供5个关于历史的问题,还能对你已经写下的试题答案进行纠正。

医疗保健:ChatGPT能够对患者关于疾病和治疗的问题进行回答,还能以此为基础提供一些康复和营养建议。比如你家的小朋友突然胃口不好,你也不知道为什么,这时候就可以问问ChatGPT,它有强大的整合能力,会把孩子胃口不好的原因条分缕析地全部列出来,你还可以问它该怎么办,让它充当你的“私人健康调理师”。

进行代码审查:你是否曾经有过这样的体验,花费了整整一天的时间写代码,但现在实在是太累了,没有精力去复查自己敲下来的代码?这时候ChatGPT也能派上用场,你可以要求它去检查代码中的错误并修改,为自己省下大把精力。

进行代码评论:不少程序员表示这个功能太让他们心动了!如果你给ChatGPT一段代码,并且让它做注释去解释每段代码的作用,它就会反馈给你一段注释的代码。这同样能够帮程序员们省不少事,让工作变得顺畅很多。


前面我们提到了一些ChatGPT的基础应用场景,其实它的技能远不止于此,甚至还能在营销、客服、风控等业务里发挥自己的功用。它能直接帮助跨境电商的卖家生成营销内容,在开展智能广告投放、提供即时客户服务、改善客户体验等方面降本增效。如果你是一个电商平台的店主,需要马上上架一款商品,但是写文案的员工请假了,这个时候你就可以利用ChatGPT来迅速生成一段营销文案。当然,前提是你需要告诉它你想要的风格和主题。已经有不少人尝试过拿它生成小红书文案了。类似ChatGPT的大型语言模型还可以提升金融业务流程的自动化水平,使得用户信用数据、历史借款记录、还款记录等数据分析以及关键信息要素提取、用户风险等级评估等工作环节都趋向于自动化,全面提升行业的风险识别能力。随着模型的升级更新,相信以后它的“业务范围”也会越来越广。

但是,ChatGPT在应用中也不可避免地表现出一些局限和弊端:ChatGPT的回答不够准确,存在胡诌或混淆等情况,用户需要自行判断;ChatGPT缺乏人类的判断力,不能辨明真假,无法理解和解决复杂问题,甚至存在伦理风险;ChatGPT模型需要不断进行训练和调整,需要提供大量的学习语料和算力支持,导致成本巨大;ChatGPT模型本身也存在不稳定、不透明、无法解释等情况;ChatGPT给社会带来了失业焦虑和恐慌,有人预测类似大模型的发展会造成大量失业。任何工具都有弊有利,ChatGPT也不例外。面对ChatGPT呈现出的双面性反馈,我们更要对这种工具进行合理化应用。推进人工智能的发展,仍然任重而道远。