自ChatGPT一路走红以来,国内众多互联网企业纷纷加入“战局”,各家大语言模型在半年内密集上线。集成了ChatGPT的产品竞争日趋白热化的同时,有关AIGC内容安全的担忧也从未停止。6月30日,腾讯安全举办AIGC内容安全研讨会,有风控专家在会上表示,审核量大、难度高以及违规内容形态类型复杂多样是目前企业解决AIGC内容合规问题时面临的难点。
今年年初,ChatGPT凭借其极其出色的文本生成和对话交互能力迅速走红,但与此同时,有关其回答准确度和真实性很低、采纳价值不高的争议也一直存在。4月,国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》,规定AIGC内容不得含有暴恐、低俗、歧视、侵权等违法违规内容,明确提出“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息”。
腾讯安全内容风控产品经理李镐泽在会上表示,目前AIGC面临的内容安全风险和传统的数据风险类型比较重合,主要分为四类。一是色情淫秽、血腥暴力、涉政涉毒等违规内容,二是虚假信息,三是涉及个人隐私的内容,比如提供手机号、身份证号等具有个人标识的信息也属于违规内容。四是涉嫌版权侵权的内容。
他举例道,在实践中可能存在“套话”现象,比如有用户在使用AIGC服务时提出大量具有诱导性问题,有意引导大模型生成违规内容。具体而言,用户可能通过拆分字词、使用拼音字、利用文字间隔等尝试寻找大模型有关违禁规则的漏洞。此外,还存在单个提问系正当,但将不同问题关联起来就会产生违规内容的情况,“我们会通过关联上下文的语义来进行识别,这也是一个对抗的过程。”
他还表示,在提供AIGC服务的过程中,要努力实现内容创作和风险控制之间的平衡。比如,一个高危的关键词可能在正当的语义下构成一个正常的提问,此时如将它们都归类为违规内容,可能会影响用户的使用体验。
国内法规即将出台意味着相关部门对AIGC监管的重视。尽管很多企业的AIGC内容合规还在探索阶段,但它绝对是企业的一道必答题。那么,在解决服务内容合规问题方面,目前存在哪些难点?
腾讯安全天御研发工程师周维聪总结了三方面的难点。首先是内容审核量巨大,目前AIGC用户数量庞大,相比于用户生产内容、专业生产内容,AIGC的生成效率非常高,在极短的时间内就能生成大量内容,为审核工作带来很大压力。
其次是违规内容的形态类型复杂多样。包含色情、暴恐、血腥等元素的内容可能以或隐晦或直白等各式各样的形态出现,这尤其体现在文本内容中,“文本中隐藏一些隐晦违规内容的可能性更大,这是需要更精细的审核去解决的。”
此外,生成内容专业度较高增加了审核难度。大模型在训练过程中会收集来自各行各业的专业知识,用于满足不同行业的内容生成需求,而较高的内容专业度也意味着对机器审核、人工审核都提出更高要求。
在AIGC内容安全的防范方面,李镐泽指出,要实现全链路数据达标,需要密切关注数据标注、数据审校等不同环节的数据生成质量。同时要重视提前预防,AIGC有数据量极大、传播速度极快等特点,不能只寄希望于事后防御,还应提高数据训练、数据生成、数据传输等过程中的风险防范意识。
采写:南都记者樊文扬