OpenAI突然关闭AI“打假”工具,官方承认准确率存在问题

发表时间: 2023-07-26 18:16

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

回想 ChatGPT 刚爆火那阵,它卓越的生成能力令不少行业“又爱又恨”。

以教育界为例,学生热衷于在 ChatGPT 的帮助下完成作业,教师们却头疼于无法杜绝学生用 ChatGPT 作弊的行为。在这一趋势下,今年 1 月美国纽约市教育部曾正式宣布:纽约市的学生和教师,无法再在教育部设备或互联网上访问 ChatGPT。

或许是为了应对这日益扩大的舆论矛盾,OpenAI 在今年 1 月底重磅推出了一款新 AI 工具 AI-Text-Classifier(AI 文本分类器),旨在用来识别 AI 生成的文本内容。

不曾想,这个新 AI 工具诞生还不满半年,就已被 OpenAI “偷偷”关停了——而 OpenAI 官方后续给出的理由是:AI Classifier 的“准确率太低”。

刚推出时,OpenAI 就提醒:不可靠

实际上,在 OpenAI 刚推出这款 AI 文本分类器时,就承认过它“并不可靠”:“我们训练了一个分类器来区分人类撰写的文本和 AI 撰写的文本,但这个分类器并不完全可靠。”

据了解,AI Classifier 是一个语言模型,基于同一主题下人工编写文本和 AI 编写文本对数据集上进行的微调。OpenAI 将由人类编写的各种来源集成到这个数据集,例如预训练数据和提交给 InstructGPT 的人类演示等。然后 OpenAI 再将把每个文本分为提示和响应,研究人员根据这些提示,让各种不同的语言模型产生响应,以此来不断训练这款 AI 文本分类器。OpenAI 特别强调:只有在 AI Classifier 非常有把握的情况下,才会将文本标记为“可能是 AI 编写的”。

针对这款 AI 文本分类器,OpenAI 在官宣博客中并没有介绍其详细原理,但给出了实验测试结果:在对英语文本内容进行测试时,AI Classifier 能正确识别 26% 的 AI 内容,显示“可能由 AI 编写”的建议参考,但同时也会把 9% 的人类编写内容“误判”为 AI 生成的内容。

对于 OpenAI 提供的这个数据,当时洛桑联邦理工学院教授 Marcel Salathé 还专门进行了计算:假设一所大学有 1000 名学生被要求写一篇文章,其中 3% 的人试图用 ChatGPT 来生成文本,即其中会有 30 个 AI 生成的文本和 970 个人类生成的文本。

但根据 AI Classifier 的测试数据结果,将出现以下情况:首先,在 970 个人类生成的文本中,会有 9%(即 87 个)被错误地标记为 AI 生成的;其次,在 30 个 AI 生成的文本中,会有 26%(即 8 个)被正确标记为 AI 生成的。

也就是说,如果老师用 AI Classifier 来识别学生的文章,共会有 95(87+8)个文本被标记为 AI 生成——但实际情况是,其中只有 8 个是 AI 生成的,而 87 个自己写文章的学生会被 AI Classifier “误伤”。

存在不少局限性

平心而论,AI Classifier 的这个正确率确实不太可观,因此当时 OpenAI 也主动提醒道:“我们的分类器有一些重要的局限性,它不应作为主要的决策工具,而应作为确定文本来源的方法补充。”

具体来说,AI Classifier 有以下 6 种局限性:

(1)在处理短文(1000 字以下)时非常不可靠,但即使是较长的文本,有时也会被分类器错误标注。

(2)有时,人类撰写的文本会被分类器“错误而自信地”标注为 AI 撰写的文本。

(3)建议仅在英文文本中使用该分类器,因为它在其他语言中的表现要差得多,在代码中也不太可靠。

(4)无法可靠地识别可预测性很强的文本。例如,分类器无法预测前 1000 个质数的列表是由 AI 还是人类写的,因为正确答案总是一样的。

(5)AI 写的文本可以被二次编辑,从而躲过分类器的检测。

(6)基于神经网络的分类器在训练数据之外的校准效果总是很差。对于与训练集中的文本有很大差异的输入,分类器有时会很自信地做出错误标注。

尽管正确率不高,局限性也较多,但 OpenAI 在推出 AI Classifier 时,还是表示:“我们相信,好的分类器可以为减少 AI 生成文本是由人类撰写的虚假说法”,“与我们之前发布的分类器相比,AI Classifier 在处理来自最新 AI 系统的文本时可靠性明显有所提高。”

网友支持关停的决定

然而,与半年前刚发布 AI Classifier 时的高调自信不同,OpenAI 关闭 AI Classifier 的决定很“低调”,甚至丝毫没有提前通知就突然关停了。

当用户们面对打不开的页面一头雾水、官方也没相关回应时,终于有人在半年前 OpenAI 发布 AI Classifier 的博客中,找到了藏在其中的添加注释:

由于准确率较低,截至 2023 年 7 月 20 日,AI Classifier 已不再可用。我们正在努力采纳反馈意见,目前正在研究更有效的文本出处技术,并承诺开发和部署相关机制,使用户能够了解音频或视频内容是否由 AI 生成。

虽然有些突然,但结合近半年来各类 AI 文本检测器的表现来看,OpenAI 做出这个决定或许并不意外。

不论是 OpenAI 的 AI Classifier,还是斯坦福大学的 DetectGPT,亦或是大学生研发 GPTZero 等 AI 检测工具,其定位都是用来区分文本究竟是由人类撰写的还是由 AI 生成的,而它们的失误率也都高得惊人。

此外,在仔细研究了检测大型语言模型生成的文本后,美国马里兰大学的计算机科学家 Vinu Sankar Sadasivan 也坦言:即使是用最好的检测器来检测 AI 生成的文本,概率并不比扔硬币进行判断好到哪里去。

因此对于 OpenAI 突然关停 AI Classifier 的这个决定,不少网友都表示支持:

▶ “虽说少了一个公告,但我很高兴 OpenAI 这么做了。现在很多人都以为只要仅凭几句话就能检测出是否是 AI 写的,但实际上根本就没人能保证这一点。”

▶ “很好,如果它确实不可靠,那它存在的意义就弊大于利了。”

▶ “关的好!你们都不知道,因为这个工具,学术界出现了大量的虚假指控。”

参考链接:

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

https://decrypt.co/149826/openai-quietly-shutters-its-ai-detection-tool