本文来自微信公众号:三联电子厂Pro(ID:cyberlife2024),作者:Jimmy,编辑:Benjamin,校对:张雁南,原文标题:《恭喜!Chat GPT高考超过一本线!》,题图来自:视觉中国
这几天你还在等录取通知书吗?每次高考完,总有一些人特别招人烦。要么是高考博主分享人生感悟,也有复读班常客带你估分,最讨厌的就属一群中年人,在那里看着作文题高谈阔论找存在感。
但他们敢做数学题吗?今年之后,AI大概就会直接断送了这些人吹牛的机会,甚至连张雪峰这样的高考报志愿的投机倒把分子,都再也卖不出去自己两万一套的一对一报志愿指导。
AI冲上河南一本线
2024年的河南高考分数线已经出炉,文科本科一批录取分数线为521分,理科511分。
众所周知,河南是人口大省,根据2023年的数据,河南以9605万排名全国第三。相应地,河南也是高考大省,2023年河南高考考生高达1200万人。
经历过高考的人,都会记得班主任常常会说这样一句话:“高考是你们人生中唯一一次公平的竞争”。在全国的大多数省份,考生要想考上心仪的学校,除了过线,必须高出分数线不少分才能被录取,像是清北这样的名校,甚至要超过百分。
河南高考一直被称为“地狱难度”。数据也支持这样的判断,以河南省为例,在全国历年985和211学校的录取比例中,河南一直处于倒数5名左右,这意味着考生们不仅要和同学内卷,更要和“名额数量”“录取比例”斗争。
如今,高考的赛道上又多了一名新“同学”。当AI也参与其中之后,所取得的成绩也同样令人目瞪口呆,并且以我们意想不到的速度进步着。
在2024年河南省高考新课标Ⅰ卷大模型评测报告中,OpenAI的Chat GPT - 4o以562分在众多AI中排名文科总分第一。Chat GPT - 4o不愧是全能(4o的o就是“Omini”,全能之意)。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。
与文科相比,大模型的理科成绩要差很多,最高分还不到480分,大多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。
各大模型高考评测取得的分数
本次大模型高考评测与河南省高考考卷完全相同,按照录取分数线,豆包等三款国产AI成功冲上一本线。但如果豆包同学在河南,恐怕依然上不了一本大学。
在大模型的各个科目得分中我们不难发现,无论是Chat GPT - 4o还是众多的国产大模型,都有明显的劣势,尤其是数学和语文的写作,都没有获得太高的分数。
大模型也和人类一样“偏科”
为什么写作无法获得高分?原因是Chat GPT实际上是无法真正理解问题的。Chat GPT所做的是模式匹配,它可以通过算法找到和输入问题相关的信息,然后提取出信息中的答案。
这种答案其条理性、逻辑性拉满,但是在阅卷过程中,还要考虑人类写作的特点,比如递进关系、思维过程、层次、修辞等等。在这些方面,人工智能的表现更像是信息的堆砌。
试着把大模型的写作给专业的阅卷老师看,得到了如下回复。老师也是一眼辨识出了大模型写作的结果,现场戳穿,大写的尴尬。
AI写作被一眼认出
大模型是数学学渣吗?
既然写作不灵,那以推理与逻辑为主的数学,为什么大模型反而也得不到高分呢?
还以2024年高考数学卷中的两道题为例,从结果中可以看到,国产大模型几乎全军覆没,只有Chat GPT给出了正确答案,其中一题是这样的:
甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片分别标有数字 1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片的数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用)。则四轮比赛后,甲的总得分小于2的概率为多少?
这道题,我是肯定算不出来的(你们可以试试),正确答案为1/2。再来看看大模型的作答结果。
原本以为算概率这种事情,应该是计算机最擅长的。结果,国内的8款大模型全部翻车。
究其原因还要从大模型自身讲起,大模型是基于人类语言研发和训练的,要想准确回答问题,首先是要理解人类语言,明白题目本身的含义。
来看一个非常典型的例子,“3个苹果加2个梨总共有几个水果”,这道小学生都会做的题,在大模型诞生之初,给出的回答往往是错误或者不知所云的答案,原因就是人类可以很容易地把苹果和梨抽象为水果,大模型无法做到。
而随着技术的进步,大模型的进步已经能够给出这类抽象问题的答案,但如果你问点复杂的,大模型还是会胡扯。以足球运动员为例:
而正确答案是:
这种抽象的概念,到了高中阶段就会变得更加复杂,无法将语言题目转化为数学公式是大模型是个数学学渣的原因之一。
其次是大模型回答问题的方式,前文提到过,大模型是通过匹配的方式找寻与之最相关的内容再通过缜密的逻辑组合成答案。
比如我们让模型画一幅人类肖像,在模型的训练数据中海量的关系证明,眼睛下方是鼻子,鼻子下方是嘴,所以模型很容易通过找寻匹配的方式画出与要求相近的答案。因为结果单一,但文字不然。比如我们提到一款手机,那与之相关的内容可能是电路板,可能是价格,可能是品牌,大模型需要不断地推理,找到最近似的结果。这就是所谓的扩散模型。
所以当给到模型的信息不全,或者存在很多隐含寓意的时候,模型就开始了一本正经地胡说八道,这就是我们常说的“模型幻觉”。
问题其实是在问我有多少个水果,Chat GPT回答为16,它没有正确理解“banana weighs 0.5 lbs and I have 7 lbs”这句话的含义,正确答案应该是7/0.5+9=23个。
看不见的“试卷”
看多了大模型不着边际的答案以及一本正经的胡说八道之后,我们甚至会怀疑号称颠覆性的大模型技术,连小学数学都做不利索,到底行不行?
答案是肯定的,大模型在很多专业领域,尤其是尖端科学领域,依然是人类社会的希望。
海量数据的处理能力
虽然在大模型之前也有类似的数据中心、超级计算机,但是其本质区别还是方法。传统的方法是查找与匹配,找到近似的结果给用户展示,大模型的工作机制除了查找与匹配之外还有推理,简单说就是能够像人一样思考。这样给出的结果更加精确。
泛化能力
我们都遇到过使用百度的时候搜不到结果的情况,是因为对于未知数据确实是找不到结果的,机器也给了正确的返回。但其实机器并没有思考输入问题的本质,大模型可以通过不断地理解和泛化,适应新的未曾见过的数据。
自我学习进化能力
目前人类自诞生以来有文字记载的各种知识、数据、资料都可以作为训练的数据,以Chat GPT - 4o为例,据OpenAI表示大概已经把目前人类的知识都看过一遍了。模型本身会不断进化,这个过程时刻都在发生。
基于这些强大基因,大模型已经被应用于很多专业领域,并取得了前人无法企及的成果。
一群来自上海财经大学、哈尔滨工业大学(深圳)、北京语言大学、西安电子科技大学、加拿大皇后大学以及万得信息技术有限公司的博士生或工程师收集了超过三万七千个问题,以及对应的超过8万条人类专家回答和超过4万条Chat GPT回答。覆盖了开放域、计算机、金融、医疗、法律、心理学等多个领域。对比大模型和专家的作答。评判标准是在双盲的情况下看谁的答案更加有用?结果如下:
大模型的答案略胜于人类专家,但是如果被评测者被告知哪个是大模型的话,结果是专家答案反超20%。可见大模型在专业知识方面接近人类专家水平,专家的优势在于能够简明扼要,直指核心,而大模型的回答略显拖沓和格式化。
心理学领域,大模型在情感上比人类更中立,甚至偏积极,能够更好地提供情绪支持和疏导。
在表述的方式上,人类比大模型拥有更大的词汇量且回答更加简短。
除了普遍的语言问答,大模型在推理上也是大放光彩。
Google DEEP MIND 公司的Alphafold3发布,生物领域Al即将参与人类的生老病死
一款药物从开始研发到上市销售要经历漫长的时间,极端情况下,有些科学家甚至都看不到“孩子”上市就已经离世。更别说研发期间巨大的资金消耗。所以像《我不是药神》中提到的“格列卫”,也是经历了漫长的岁月。而作为垄断企业的药企,显然不会轻易地交出专利。
但大模型的出现让这个过程至少提高了36%的速度,其重要的功能就是在推测先导药物分子式这一过程中,通过模型极强的学习和推理能力,极大地加快了发现新的分子式(新药物基础)的过程。
也许几年后就会有无数种新药问世,它们可以治疗多种目前束手无策的病症,并大幅降低研发成本,而最终受益的依然是患者和家属。整个人类群体的寿命和生活质量也将同步提升。
关闭对中国的接口,更大的机会?
前几天openAI宣布禁止中国地区用户使用API(应用编程接口)方式访问其服务,技术垄断的背后,中国也在不遗余力地研发自己的技术。在同样的技术背景下,其商业模式以及对用户的影响,中美可能会走上两条不同的路线。
如果回顾一下AI的上一波浪潮,即移动互联网,不难发现,同样的技术和终端,在商业模式上走上了两条不同的道路。
细数移动互联网诞生的十余年里,以原创产品为标准。中国涌现出了支付宝,字节跳动,美团网,共享自行车,短视频,直播带货,手机游戏等。反观美国企业则主要集中在生态和更上游,比如硬件制造的苹果,操作系统安卓和iOS,云服务器等,元宇宙等。
再看当下的AI生态,中国的公司更聚焦在终端用户的身上,比如AI虚拟人、AI绘图作画、AI写ppt、AI做淘宝模特图、AI试衣等等。并把上一波浪潮中的经验完美融合其中,比如会员制订阅收费、营销手段等等。移动互联网“先圈用户再赚钱”这个逻辑一直被默默地继承了下来。
AI作图的生硬“直译”
诚然,美国也有多如牛毛的类似公司,比如C.AI(虚拟人)、Notion(写作)、Replica(元宇宙)、Cavana(创意),但是目前在硅谷投资行业中更为投资人看好的,并已经实现盈利的却是一些“to B”(面向企业)的生意。有个很生动的例子,阐释了AI的巨大作用。
美国有一种工伤保险,当员工因公受伤在家休养期间,保险公司会支付50%的薪水给员工,该保险由企业投保,员工受益。但是在被保险客户中,其伤愈的时间是因人而异的,很多人并不知道自己已经可以回去上班领全额的薪水,也不知道自己的医疗到何种阶段。
这项工作以前是由人工完成的,即保险公司致电每一个可以或即将可以上班的员工返回工作岗位。显然这是极其低效的。AI应用在电话回访之后极大地提高了效率和准确性,AI接收医院的医疗信息,找出对应的被保险人,然后拨打电话,无需任何人为干预,一天可以打几百上千个电话。而一旦被保险人返回工作,保险公司便可以停止支付工伤期间的薪水。据统计一年下来,仅这一项应用为该公司节省了至少6000万美元的保费。
所以,一个现存的需求,利用AI的高效率解决问题。这种生意显然Open AI不会做,马斯克也不会做,足够的垂直和足够大的体量,是极度受投资者青睐的。
反观中国对于AI的投资,呈现两种截然不同的境遇,其一是大厂做AI,不差钱但不能错过风口,担心“别人有我没有”是战略决策失误,怕被落下。另一种是大模型套娃,大多雷同,投资人认为门槛低复制简单,也没有竞争优势,绝大多数被冷遇。
留给中国大模型的机会很多,参加高考不过是牛刀小试,成绩也不会像很多人进了复读班一样,不升反降。AI能为人类提供更精密的推导,更厉害的算力,我们很高兴能看到这些被应用在药物研究、外太空探索之上。
但就像一个孩子说的一样:科技是为人类服务的。大模型的出现,是希望能够给人类提供更多的机会和便捷,而不是以一些急功近利的方式,去剥夺人们赖以生存的手段。或许,智能驾驶是解决交通拥堵和未来人类出行的手段,但挤占人类的生存空间的方式,显然不是人工智能的初衷。
本文来自微信公众号:三联电子厂Pro(ID:cyberlife2024),作者:Jimmy,编辑:Benjamin,校对:张雁南
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP