OpenAI DALL-E 3模型存在生成不当内容的问题,微软员工上报后遭遇封口令

发表时间: 2024-02-02 11:38

微软软件工程部门经理Shane Jones日前发现 OpenAI旗下DALL-E 3 模型存在漏洞,据称能够生成一系列 NSFW不当内容,在上报相关漏洞后,Shane Jones 却被下达“封口令”,不过该员工最终还是选择向外界披露相关漏洞。

图源Shane Jones 对外披露的报告

IT之家注意到,Shane Jones 在去年12月通过独立研究发现 OpenAI文字生成图片的DALL-E 3模型存在一项漏洞,能绕过AI护栏(AI Guardrail)生成一系列NSFW不当内容。

之后 Shane Jones 将漏洞曝光上报微软及OpenAI,并在领英上发布公开信,声称相关漏洞会对大众造成安全风险,呼吁OpenAI在解决漏洞前应暂时下架 DALL-E 3 模型。

随后 Shane Jones 被微软法务部及高管找上门,并警告他立即删除领英公开信并停止对外披露任何内容,但却并未给予任何解释说明,此后 Shane Jones 屡次寻求公司内部沟通,但均未得到公司回应,而漏洞也未修复,之后 Shane Jones便向媒体及有关部门披露了相关漏洞。

Shane Jones 提到,近日网络上出现AI生成的知名歌手Taylor Swift(泰勒・斯威夫特)不雅照便与该漏洞有一定关联,这些不雅照据称是使用微软Designer AI功能生成,而Designer底层模型正是DALL-E 3,因此微软在本次事件中下达“封口令”存在重大过失。

此后微软官方回应 Engadget 等媒体,声称将解决相关员工的疑虑,并修复相关漏洞,不过微软同时声称 Shane Jones 披露的漏洞实际上成功率较低,“无法绕过微软为模型设置的所有安全机制”、“目前还不清楚该漏洞与 Taylor Swift不雅照事件是否有关联性”。

本文源自IT之家