最新调查发现ChatGPT在编程问题上有52%的错误率

发表时间: 2024-05-26 12:35

使用 Copilot、Gemini 和 ChatGPT 等生成式人工智能聊天机器人的一大卖点是,与人类回答同样的提示相比,它们可以更快地回答有关编码和编程的问题,从而帮助节省时间。然而,最近的一份报告称,ChatGPT 在回答编程问题时提供了大量错误答案。

普渡大学的一个研究小组在 5 月早些时候举行的计算机-人交互大会上提交的一份报告中,检查了发送到 ChatGPT 回答的 517 个 Stack Overflow 问题。

普渡大学的研究小组反馈说,ChatGT 为这些编程问题提供错误答案的比例高达 52%。

虽然人工智能聊天机器人提供错误的问题答案也许是意料之中的事,但珀杜大学的研究小组却更进一步指出,人类程序员在 35% 的情况下仍然更喜欢 ChatGPT 的答案,"因为它们的回答具有全面性和清晰的语言风格"。更糟糕的是,在 39% 的情况下,人类程序员并没有发现 ChatGPT 的错误答案。

虽然这只是对 ChatGPT 功能的一个方面进行的研究,但它表明,生成式人工智能机器人仍然容易犯很多错误,而人类可能无法发现这些错误。

Google的人工智能"概述"(AI Overviews)于今年 5 月初在美国地区的Google搜索中投入使用,它已经对一些搜索字符串生成了奇怪且充满错误的答案摘要。Google在向新闻机构发表的声明中试图解释这些明显的错误:

我们看到的例子一般都是非常不常见的查询,并不能代表大多数人的经验。绝大多数人工智能概述都提供了高质量的信息,并附有深入挖掘的网络链接。

声明还说,Google将利用这些"孤立的例子"来帮助"完善我们的系统"。