演讲时间2024年4月。
我们通向通用人工智能道路依然任重道远。换句话讲,人工智能还有很长的路要走。为什么?因为要达到通用人工智能必须满足我下面讲的三个条件。
·第一个条件,系统必须跟领域无关。ChatGPT做到了领域无关,但是它只是在对话、自然语言处理这个问题上做到和领域无关。其它大量的问题现在还做不到跟领域无关。现在做出来的医疗诊断系统只能看一个具体的病,能不能做出来一个系统什么病都会看,现在还不知道怎么做。所以意思就是做到领域无关。
·仅仅ChatGPT只是走了一步,另外一个应该跟任务无关,什么任务都会干。ChatGPT现在对话能干,也能够算四则运算,也能作诗,也能写代码,可以做很多任务。但是也不是什么任务都能干,复杂环境化的复杂任务是干不了的。
·最后最主要的要建立具有一定的统一的理论。刚才说ChatGPT最大的问题是没有统一的理论,这是应该做的。所以大家应该知道人工智能还有很长的路要走,我们认为需要"四步走"。
→第一步就是跟人类进行交互,跟人类进行对齐。因为现在ChatGPT尽管说的都是人话,但是不见得是正确的,它有的地方还胡说八道。如何克服这个问题?必须靠人类去帮助它去克服,跟人类对齐。
看一下这个结果,ChatGPT刚GPT-3的时候它的错误率是40%,40%说错了,只有60%说对了。经过两年的人类的调整,帮助它改正以后,到了Chat-GPT(聊天GPT)的时候是降到20%,GPT-4的时候又经过几个月降到10%。从这里可以看到它的错误是要看人类帮助它去纠正的。而且纠正的速度是很快的,迭代的速度是很快的,但是要看到错误仍然存在,不可能把它变成零。刚才说过了,要创造性就得允许它犯错误。
·第二步要走的就是用大模型来生成文本,把它叫ChatGPT(聊天GPT)。现在可以用大模型来生成图像、生成声音、生成视频、生成代码。生成声音里头包括语音、音乐,所以可以用大模型生成各种各样模态的东西。
就是如何用扩散模型,用图形的时候一般要加上扩散模型,这样图形的结果质量会更高。这个模型是提出来的,也是做的系统里头用文本生成图像,也就是随便写一个文本,它就根据文本生成出来图。
看中间那张图,中秋节的月兔和月饼,画出来兔子和月饼。大家看一下兔子的胡须,它的细节非常之好。当然也可以让它按照某一个艺绘画画家的风格画出来图,这是按照某一个画家的风格画出来的桌上的向日葵,它也画得很好,就是画的质量可以非常好,达到人类的水平,甚至画家的水平。
·第三步必须跟数字世界连起来。大家想想大语言模型再好,只能说不会干,很多事情要干了才行。所以首先在数字世界里头具体去干活,干完活以后就可以解决这样问题,它就知道自己这个东西做的怎样,如何。因为它拥有反馈,所以这个工作对促进它的性能有很大的好处。
因为原来它说了以后不知道这个说的对不对,现在照着你说的来干,一干就知道你这个对不对。所以它有了反馈以后,可以推进ChatGPT(聊天GPT)往前发展。
接着下来以后就跟客观世界连在一起,必须得有手,光动口不动手怎么能干活?跟物理世界连起来就得需要机器人。
这就是大家现在讲叫巨生智能。具有身体的智能。智能光有脑袋还不够,还必须具有身体,这样你才能动口又动手。
所以第四步,就要和客观世界连在一起,也不是说这四步做了就完成通用人工智能至少向通用人工智能迈出这四步。