AIGC真的只是泡沫吗？中国如何打造自己的ChatGPT？大咖们的观点

发表时间: 2023-03-30 20:52

随着ChatGPT爆火，越来越多的、成熟的大模型和生成式AI接二连三地涌现，成为了时下热议趋势和话题。马斯克近日联名千余位AI专家呼吁暂停训练更强大的AI系统，也被反对者抨击“言辞骇人听闻”。

不可否认的，AIGC（AI生成内容）商业化的速度相当之快，而相应的期待、疑问和担忧也接踵而至：这些大模型将如何改变我们生活的方方面面？伴生着新机遇，人们是否准备好了迎接新挑战？

3月29日，由量子位主办的首届中国AIGC产业峰会在京举行。有专家在峰会中指出，国内外商业环境不同，没必要一股脑地抄国外的产品，建议在不同的切入点做大模型，避免同质化。而在合规方面，AIGC可能会造成内容污染、版权侵犯、信息伪造等问题，因此监管和行业自律都迫在眉睫。

···

在ChatGPT横空出世之前，AIGC、大语言模型已经不是新鲜事物，但此前数家科创公司尝试激起的火花似乎都远远不及此次。

峰瑞资本投资合伙人陈石坦言，ChatGPT的意外之处在于它不是一个连续的变化，而是“突然一个跳跃”。“微软有个报告说ChatGPT已经具备了通用人工智能的火花，而且火花还在不停地燃烧、变大，这是我们觉得很惊喜的。”

从技术角度来说，云舶科技创始人兼CEO梅嵩指出，AIGC的商业化之所以这么火爆，一方面是以AI绘画和ChatGPT为首的生成效果已经达到了使用阀值，可以转化成直接的生产力，从而具备了巨大的商业价值。“以前推出的智能音箱，包括苹果Siri为什么没有这么大的反响？因为确实效果还不够，还没有‘过线’。”

而无论是图片还是文字生成，商业化路径都比较短，适合的用户量又非常大。不像3D模型——“AIGC生成的效果也非常好，但我相信可能没有前两者造成的影响这么大，因为还要再去开发3D模型配套使用的应用场景。”他解释。

不少企业嘉宾在峰会上表示，随着人才、资本和业务的大力投入，AIGC已经进入到快速产业落地阶段。不过，相较于海外AIGC产业落地的繁荣，国内公司的商业化只能算得上差强人意。

对此，源码资本合伙人黄云刚认为，这和国内AIGC行业的商业环境有关。“海外to B（面向企业、平台类型的服务）的生态比较好，现在他们都在做一些效率工具，一些个人产品都能赚钱，而且增长挺快的，但国内就相对复杂一些。”但他也同样提到，这种环境的不同也带来了不同的机遇，“所以我们在不管是做投资，还是跟创业者一起聊的时候，会去分辨国外火的一些应用，不要去一股脑去抄，因为环境差别很大。”

当企业一股脑地追着商业热点跑，行业往往会被质疑有泡沫。不过，与会嘉宾普遍看好AIGC的发展前景。他们提到，AIGC不是一个短期的热潮，而是会经历很长时间的进步，而且会产出很大的社会价值和商业价值。

面对着与国外差别甚大的环境和研究基础，中国大模型开发的原创性又该如何体现？

对此，华院数智人商业化副总裁林莱尼认为，尽管目前国内的大厂和研究性机构、初创公司都在做大模型，但基础研究的环节是非常薄弱的，因此需要奋起直追，“目前国内大部分的基础研究，尤其是算法模型基本上都是国外率先诞生的，国内确实要追赶他们的技术研究和原创性。这不是说我们目前做自研的大模型是没有价值的，反而是这个时候是非常势在必行的。”

此外，国内大模型也需要在不同的切入点做大模型，避免同质化。林莱尼补充道，“比如说有专门做心理咨询相关的大模型，聚焦在一两个行业里，对于国内的初创公司来讲，创新性是要体现在你对于这个行业上有足够多的、深刻的理解，然后迅速地在行业内把数据飞轮和场景飞轮跑起来。”

···

因为倚靠海量数据和强大算力，ChatGPT也被戏称为“大力出奇迹”美学。在陈石看来，大力出奇迹“是必然的”。

“无监督学习，特别是大规模无监督学习，一直是机器学习的一个‘圣杯’。（以前）从来没有人取得过圣杯，但是这次我觉得OpenAI把这个圣杯给拿下来了。”陈石认为，大量的数据+无监督学习是一个趋势，也已经经过了验证。

智源研究院副院长、总工程师林咏华指出，当大模型的尺寸到达了百亿或以上，这就意味着它出现了涌现能力，已经从语言模型上升到了认知模型。2021和2022年，不同的大模型涌现，甚至出现了万亿参数的模型，而模型的模态也从单语言模态变成了多模态。这意味着AIGC能力上的跃升，但同样带来了新的挑战。

“到底多大的参数可以支持我们的应用的需求？是盲目的都要追求千亿模型还是百亿模型就够？具体需要多少训练数据才足够喂饱一个百亿模型或千亿模型？又有多少信息和数据可以传递到我们的下游任务？当模型从单模态走向多模态，从一个单纯的语言模型走向了一个认知模型，我们应该如何去评测？”她抛出一连串反问。

林咏华指出，AI研究不应该盲目追求模型的“大”，也应当思考这种“大”带来的问题。比如在大模型达到了一定规模之后，该如何继续低成本地吸纳新知识、新信息；当模型输出错误的时候，如何做到定点纠错？

林咏华进一步指出，“对于大多数的企业来说，不是去训练自己的模型，而是借用别人的模型。”她表示，这时候评测会成为拉动大模型发展的关键。“随着大部分技术的发展，评测已经迎来了更大的挑战。”

陈石则从创业者的角度提出了建议。他表示，大部分创业机会可能还是在非模型层或者垂直类模型领域，比如应用层的创业不需要自己去训练模型，而是可以在一些大模型的基础之上做一些改进。

···

在AIGC和大模型被广泛落地和应用的同时，版权争议、信息伪造、隐私侵犯质疑也随之而来。

近日，多家国外主流新闻媒体指控OpenAI、ChatGPT未经许可使用新闻来源进行训练，并拒绝向媒体支付相关费用。今年1月，一群艺术家起诉Stability AI Ltd.、Midjourney Inc.等多家AI绘画公司，声称它们未经授权下载并使用了数十亿张受版权保护的图像，也没有进行补偿。

无界Ai联合创始人马千里告诉南都记者，由于大模型多为无监督学习，具有很强的不可解释性，因此给出的答案是难以溯源的，“你没法解释它，你就不知道它为什么会这样子，以及它将来会变成什么样子，它会不会变得危险。因为它现在有了很强的预测能力、推理能力，有可能被坏人利用，或者自发地变异，都是有可能的。”

“我们可以观察到，当用户创造内容的门槛每降低一倍，用户创造内容的数量就会增加十倍百倍。” 昆仑万维CEO方汉认为，这造成了优质内容的稀缺，“现在我们已经发现了一个巨大的问题，就是AIGC生成的内容大量污染。有一个很难听的话，就像你的排泄物被你当成数据了一样，长期以往会是一个非常大的问题。”

此外，大模型底座不可避免地自带一些政治倾向性。方汉用OpenAI举例说明，在ChatGPT中嵌入的政治倾向是偏向买主的，而“中国训练大模型肯定也有中国的政治倾向性，这个怎么解决？这也是一个内容生成上的问题。”

自ChatGPT问世以来就被诟病的版权和信息伪造问题也不容忽视。对于版权问题，他以Adobe的firefly为例，提出平台应该给作者进行提成，“adobe的firefly提出了一个新的模式，跟那些被用于训练的内容的作者达成了一个协议，然后通过对使用firefly的人收费，来给这些内容作者进行分成。”

“在版权问题以及信息伪造问题这个方面，我认为从监管到行业自律，我们可做的事情非常多，而且非常迫在眉睫。”他进一步补充道。

采写：南都记者胡耕硕

AIGC真的只是泡沫吗？中国如何打造自己的ChatGPT？大咖们的观点

热门阅读

推荐阅读