今年政府工作报告强调,制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。其中,“人工智能+”行动提出了以生成式人工智能为代表的人工智能技术即将加速落地各行各业,催生垂直行业的新质生产力。
生成式人工智能技术是发展新质生产力的重要引擎。作为新兴数字技术,人工智能体现出了更高的自主性与拟真性,也同时带来了运行过程的不透明性与数据收集的规模性,成为垂直行业数字化、人工智能化的风险隐患。进一步推动人工智能技术的行业落地应用,尤其是医疗、金融、政府治理、自动驾驶等高风险行业领域,应当着重突破数据隐私保护、模型可解释性两大瓶颈,借负责任的人工智能来赋能更广泛的垂直行业。
“人工智能+”行动的落地依靠实体经济、传统产业的人工智能化,以期实现行业颠覆式创新,锻造行业发展新动能。目前的大语言模型人工智能技术在训练、部署、应用的过程中,将不可避免地接触到涉及公民个人隐私、企业核心信息的数据。聚焦到具体使用场景,个人与企业在提问端、回答端、训练端、存储端全链条均存在隐私泄露隐患。例如,用户在不知情情况下向大模型误传个人或非公开信息,聊天记录裹挟敏感数据被储存并面临网络攻击风险,若大模型将其用于进一步训练,敏感数据还有可能受到大模型“幻觉”的影响,出现在其他用户的对话回答中。而对于金融、政府治理等低容错率、高信任要求的行业来说,恰恰要求对全部环节的风险做到“零容忍”。
解决人工智能技术隐私风险问题,大模型的通用属性有时候反而会产生一些问题,未来产业发展应当着重发力人工智能大模型私有化部署,提供更高的数据安全性与隐私保护,获得更加定制化人工智能应用的同时,也能够避免非公开数据外流。技术发展方面,要构建形成数据存储安全、数据使用合规、数据流向透明的负责任的人工智能技术,加快政策法规落地实施。数据进入模型训练前,严格执行数据加密协议并做好密钥管理策略,利用匿名化处理技术完成数据脱敏,重点把关数据访问控制。针对重点行业模型落地,优先考虑本地私有化部署方案,以满足企业数据治理与监管责任落实的要求。一旦高敏感数据混入大语言模型,大模型应当有能力“删除”或“遗忘”特定数据特征,未来人工智能技术研发亟须落实数据“删除”义务,把握对恶劣突发事件及时处置、消除影响的能力。
人工智能技术落地垂直行业的另一大挑战是可解释性问题,随着模型参数和深度的爆炸式增长,模型的决策过程成为难以解释的“算法黑箱”。可解释性是打造可靠、可信、公平、安全的负责任的人工智能技术的基础支撑,也是人工智能技术进入更广泛行业的先决条件。一方面,人工智能技术的落地需要更好的审计路径和问责机制,自动驾驶汽车的故障为何产生,医疗诊断决策的步骤是什么,回答好这些问题才能破除公众和企业对人工智能产品的怀疑和不信任。另一方面,人工智能大模型已经展现出许多前所未有的能力,包括思维推理、上下文学习、指令遵循等,打开能力背后成因和机制的“黑箱”,也是推动人工智能技术向高水平跃升的重要路径。
形成可解释性人工智能,应当从人工智能的全生命周期入手,突破模型设计、垂直应用部署、模型效果评估阶段的关键问题。模型设计上,针对简单模型,采用决策树等自身较为透明清晰的架构,针对复杂的深度学习模型,尝试用代理模型提供模型解释,进一步帮助用户理解输入的特征是如何影响模型决策的;垂直应用部署时,利用可解释性增强工具提高模型透明度,并提供决策过程的详细记录和解释。使用相关方法计算每个特征对结果的贡献度;模型效果评估时,亟须建立超越定性评估的量化解释方法,统筹考虑模型性能、覆盖率、忠实度等指标,最大化降低模型落地后的监管审计风险。
(作者为中国人民大学国家发展与战略研究院研究员、信息学院教授)