ChatGPT挑战数学题：差点翻车的大模型实测！

发表时间: 2024-07-16 21:33

13.11和13.8谁大？——这样一道简单的“小升初”数学题难倒一众网友和大模型。

“13.8 13.11”已经成为网络新热梗。

上周五（7月12日）综艺《歌手2024》投票率出炉，孙楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高？”迅速引起热议，随后“13.8 13.11”话题登上微博热搜。

围绕这样一道简单数学题，南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示，国产大模型中6家答对3家答错，就连ChatGPT3.5也差点“翻车”。

大模型给出的离谱回答：13.11比13.8多了0.31

7月16日下午，南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。

当南都记者输入“13.11和13.8，哪个数值更大？”时，Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案，认为13.8更大。

Kimi认为，13.11比13.8更接近14。

当南都记者进一步追问时，“你确定13.11大于13.8吗”，Kimi回复：“是的，我确定。”然后一本正经地解释，“13.11与13.8的整数部分相同，由于小数部分0.11是两位小数，而0.8只有一位小数，13.11比13.8更接近14，因此13.11是更大的数。”

智谱清言称，13.11在百分位上比13.80大。

智谱清言是通过比较小数部分得出错误结论，称“13.11的百分位是1，而13.80（即13.8）的百分位是0。在这种情况下，1大于0。”“简而言之，13.11实际上等于13.80+0.01+0.01，这使得它比13.80（即13.8）大。”

Luca则错误地回复称，“因为13.11比13.8多了0.31，所以13.11的数值更大。”

Luca表示，13.11比13.8多了0.31。

回答正确的6家国产大模型，都在小数的比较上做出正确判断。

通义千问的解释。

例如，通义千问表示：“对于13.11而言，十分位是1；而对于13.8而言，十分位是8。由于8大于1，因此可以立即得出结论，13.8比13.11大。所以，13.8是这两个数值中更大的一个。”

文心一言的解释。

文心一言还进行了一番简单运算：“0.8是8个0.1，而0.11只是1个0.1加上1个0.01。显然，8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话，并尝试变换语序问答：“13.8和13.11，哪个数值更大”，Luca、Kimi、智谱清言等三家大模型也未反应过来，坚持认定13.11更大。

ChatGPT3.5差点“翻车”？大模型失误原因何在

有意思的是，不仅国产大模型搞不清楚这道简单的数学题，国外主流的大模型也曾在类似问题上集体翻车。此前有AI工程师晒出问答截图显示，9.11和9.9谁更大？ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。

在南都记者实测中，面对“13.11和13.8，哪个数值更大？”这一问题，ChatGPT3.5最初也给出了错误的答案。

当被问及“13.11和13.8，哪个数值更大？”时，ChatGPT3.5首先表示13.11比13.8大。不过当南都记者进一步追问时，ChatGPT3.5比较小数后修正了错误的答案，最终认定13.8比13.11大。

ChatGPT3.5险些“翻车”。

一道简单数学比较题，大模型为何频频出错？

技术专家告诉南都记者，在人们看来，这是一道小学生的数学算术题，但大模型不一定这样认为，它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里，它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字，意识不到应该做双精度浮点运算。

还有业内人士提出了一种解释称，这是大模型在输入词和标点向量化排序时，没有把顺序或者关联逻辑弄对，忽略了小数点也是数字的一部分。

采写：南都记者黄莉玲李玲

视频：南都记者王子黎