·“可能在漫长的开发过程中,有一些关键的技术得到突破,大家就充分关注它,但是其实背后是更大的困难。这些因素导致某些技术、概念短时间没有成绩,被公众忘记。但是其实该努力的人还是在努力。”
“如果有一天我的数字人会聊天了,它说了不该说的话,到底是谁的责任?”
2月25日,在全球人工智能开发者先锋大会(GAIDC)间歇,Unity中国技术总监孙志鹏接受澎湃科技(www.thepaper.cn)专访,谈到了AIGC(生成式人工智能)和元宇宙未来的趋势。
孙志鹏认为,ChatGPT作为一种“能力”释放给公众可能带来一定问题,创作平台有审核责任,但是怎么审,“我觉得其实也可以用一些技术手段实现。”
Unity中国是为开发者提供3D引擎的平台,本身也是元宇宙底层技术的开发者。孙志鹏表示,创造元宇宙中的内容,原先是专业开发者通过专业工具进行的,而AIGC赋予了每个人创造内容的能力。
Unity中国参展2023全球人工智能开发者先锋大会。
枪只能放到训练有素的士兵手中
澎湃科技: 2022年DALL-E、ChatGPT等人工智能工具让AIGC变成了科技界最火的一个名词,国内也有很多企业追赶浪潮,你认为在2023年这一领域的发展趋势是什么?
孙志鹏:两个方面,一是人工智能模型会越来越大,二是人工智能在多模态方向上(多种模态的信息,包括文字、图片、视频等)的工作还将继续。上述两个方向最近就是在大模型的指挥下做了一些很“出圈”的事,引起了巨大的反响。模型越做越大的同时,模型所能生成的模态也会越变越多。现在我们看到最多的还是文字、图片这两个模态,未来3D内容也会加入进来,包括3D数字人。
目前的语言大模型本身需要“掌握”两部分知识,语言的知识和有关世界认知的知识。有关语言的知识只需要很少的数据量就可以训练出来,而有关世界认知的知识,则可以用来驱动多模态领域的研究。比如描述我在上海这件事,我可以用文字,也可以用图片、视频。但无论何种模态,表达的都是我与上海的关系。也就是说知识的关系是跨模态的,知识的表达方式,可以按照各模态的需要来分配,就如同多模态工作中发现的经验一样,BeiT v3模型结构也反映了这一结论。大语言模型,通过语言模态越做越大,再加入更多的模态,将来就可以驱动3D内容、脚本的生产。不仅仅是语言模型的开发者,未来会有更多领域的人加入,而不仅仅是语言模型的开发者,这是2023年的趋势。
澎湃科技:Unity同样是一个内容平台,目前各平台对于UGC(用户生成内容)的监管已经“分身乏术”,你认为在AIGC的时代,人工智能生成内容对平台会有什么样的影响?
孙志鹏:一个大模型能够产生的模态越多,对人的影响可能就越大。只能产生文字的时期,或许传播效率还有限。但未来必然可以产生各种模态的内容,图片、视频、3D内容等等,这带来的影响力、传播力将远超文字。所以监管是必要的,但同时人工监管的成本确实太高了。
我们目前在进行数字人的生产流程,就会考虑到,如果有一天我的数字人会聊天了,它说了不该说的话,到底是谁的责任?所以ChatGPT作为一种“能力”释放给公众可能是有问题的。创作平台有审核责任,但是怎么审,我觉得其实也可以用一些技术手段实现。
比如ChatGPT为什么能够善解人意, 按照InstructGPT(ChatGPT的前身,基于GPT-3)的描述,就是因为首先有数万的人工数据(提问和回答数据)加入训练,然后再用大量的人工对结果进行筛选,最后再由一个reward model强化学习,才使得ChatGPT除了具备GPT-3.5(相较于GPT-3加入了github上大量代码的“语料”)带来的语言能力,还融入了人工智能的强化训练,加入了人的偏好对AI的训练。无数人对ChatGPT提问,可能有数万次,在这过程中会不断强化ChatGPT的能力,而这些人的意志也就会带入AI。
所以,开发、训练AI的人是重点,如果训练的人加入更多以表达善意为主的数据,那么这些人善意的偏好就会加入大模型里。如果提问的源头是一个善良的目的,大概率会得到一个善良的结果。
最近还有一个趋势是,问大模型的问题,不由人直接提问,而是人类把诉求告诉另外一个语言模型,这个语言模型先理解你的诉求,然后去生成一个“不会有问题的问题”。一个“不会有问题的问题”,就会得到一个“不会有问题的回答”。如果一个大模型足够有创造力,我们不应该直接让人去指挥它。如果说它是一把枪的话,你不应该直接让人去使用,而是应该让一个训练有素的士兵拿着这把枪,然后人去指挥这个士兵,而这个士兵有基本的善恶判断能力。比如杭州有人用ChatGPT编写了车辆不限行的文件。那么人工智能一开始就需要判断,作为一个合法公民,编写不存在的政府文件,这种诉求是否合理。
AIGC将为元宇宙带来生产流程的进化
澎湃科技:AIGC的火爆可能一定程度上让元宇宙的声量小了一些,你怎么看待二者间的关系?
孙志鹏:有起有伏很正常,刚开始做出来一点成果的时候,大家可能会过度乐观,觉得ChatGPT如此强大,我们已经迎来了通用人工智能的曙光,但其实离得还远。比如现在人工智能的推理能力其实是很差的。
但这些乐观实际上涵盖了我们对技术的期待,描述了一个更好的未来,给了开发者一个目标。而怎么去实现这个目标是手段的问题,AIGC可能就是这个手段,两个概念此起彼伏。
可能在漫长的开发过程中,有一些关键的技术得到突破,大家就充分关注它,但是其实背后是更大的困难。这些因素导致某些技术、概念短时间没有成绩,被公众忘记。但是其实该努力的人还是在努力。虽然大家可能没有太多耐心,又过度乐观,但一个行业的人,坚持做自己觉得对的事情就可以了。
而AIGC为元宇宙带来的是生产流程的进化。元宇宙描述的形态太过庞大,以至于传统生产流程不适应。AIGC可以赋能创作者。人工智能本质上就是在赋予人更大的算力支配,进而激发人的创造性。以前专业开发者需要耗时耗力做到的事情,现在很容易就能实现。你只要说话就可以完成画图、建模。而干这件事本身就使用了更多算力,消耗了更多的资源。同时,随着AIGC越来越多地使用,算力也会变得更加便宜,元宇宙的开发也会从中受益。
澎湃科技:作为元宇宙核心技术的引擎技术在未来会有什么发展?元宇宙产业在2023年有什么样的机遇和挑战?
孙志鹏:有关元宇宙,大家一直在讨论生产流程。这在过去实际上就是专业引擎的工作。比如Unity引擎本身怎么开发,以前是一个小众的事,毕竟做工具的人是少数,创作生态里更多的是用工具做内容的人。元宇宙中可以诞生更高效的生产数字内容的流程。
比如一个平台,在自己的元宇宙里定义一个新的内容生产方式,生产这个宇宙里的内容,在这个宇宙里消费。Unity这类引擎要做的就是适配。比如一个公司购买了Unity Pro,只用到20%的功能,却花费了100%的钱,多余的功能对个人而言实际上可能会干扰其生产效率。所以引擎在未来通过解耦合、模块化的能力,为元宇宙提供特定场景下的生产流程,让其在特定领域足够高效,才是发展的重点。此外,引擎升级的同时,该引擎支撑的内容也会更精美。
通俗来说,引擎应该是一整套乐高积木,用户可以根据自己的想法制作工具、场景,同时积木更精美、质量更好,那么做出来的东西也会变好。如果我们把引擎的功能合理拆散,元宇宙开发者通过与自己的诉求有机结合,就会创造更高效的生产流程。