微软中国CTO:高质量中文语料的共享难题

发表时间: 2023-03-25 15:23

中国青年报客户端讯(中青报·中青网记者王林)ChatGPT已引起大量关注,但也出现了令人啼笑皆非的搜索结果。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,ChatGPT能够提炼的语料是开放的、共享的和免费的,而我们做“中国版ChatGPT”所需要的高质量中文语料大多被存在各家企业或机构的“后花园”里无法共享。“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施。”

微软(中国)首席技术官韦青在会议上演讲。信息化百人会供图

当天,北京信百会研究院、阿里研究院联合举行2035数字议程伙伴行动 • 领导者三周会(第9期),围绕“迎接‘新AI时代’——从ChatGPT看中国AI产业发展之路”这一主题深入交流和研讨。

韦青现任微软(中国)首席技术官,还担任中国电子科技集团公司与微软公司的合资公司神州网信技术有限公司总经理。他在此次会议上表示,面对当前火爆的ChatGPT、GPT-4,我们不应着急“往上走”,去追逐技术潮流,而是应该“往下走”,去看看技术的起源;应该“由因推果”,而不是“由果推因”。

据他介绍,ChatGPT所使用的GPT-3技术是一种基于Transformer的大语言模型,这是这一轮人工智能技术取得实质性突破真正核心的“因”。人类的知识是土壤,各类以大语言模型为代表的基础模型相当于地下庞大的“树根”,ChatGPT只是在这上面长出来的一棵“树”。在大语言模型的“树根”之上可以长出无穷多“小树”出来 ,如果只把目光放在其中一棵“树”上,那么可能永远也赶不上时代潮流。

韦青认为,以Transformer为核心的大语言模型就像一个极其高效的“知识提炼器”或“知识蒸馏器”,需要拿大量、高质量的语料去“喂养”。这种智能机器能力的实现是一个复杂的巨系统工程,具有典型的“短板效应”,不仅要有算力,还要有优质的语料和素材,更需要支持与包容创新,尤其是包容看似失败的创新的社会氛围。

“一种文明体系的语料如果不能被这类知识机器抽取提炼的话,这种文明在智能机器时代的价值可能就会逐渐丧失。”韦青表示,全社会应该共同促进高质量的知识共享。

责任编辑:张均斌

来源:中国青年报客户端