2024年生成式AI的最新进展:我们所见即所得

发表时间: 2024-04-15 14:14

来源:北京青年报

自从人工智能技术开始涉足内容生产领域,通过算法和模型来生成文本、图像、音频等内容后,2024年王炸产品Sora的问世再度席卷视频领域。

游戏中出现可互动的智能NPC(游戏中非玩家操控的游戏角色)、输入文本可一键生成包括配音、字母的一段短视频……得益于硬件算力的提升,AIGC(生成式人工智能)的核心算法和大模型训练水平也在不断提高,能够更好地落地至应用或场景中。

尽管AIGC在互动行业的应用已经取得了巨大成功,但仍然存在一些挑战和问题,法律风险和版权争议仍然是需要不断调整和完善的问题。

想象力转化为动态画面 AI开启全新视觉叙事时代

上个世纪50年代,AI(人工智能)出现,随着计算机技术的不断进步和软件算法的不断优化,人工智能技术逐渐成为了当今科技领域的热门话题和应用领域。互联网的内容生产模式也逐渐经历了三个发展阶段:PGC(专家生产内容)、UGC(用户生产内容)和AIGC(AI生产内容)。

到了2023年,以AIGC为代表的一系列技术创新再次燃起技术革命产业赋能和科技创新创业的热情,人们见证了文生文、文生图的进展速度。AIGC相关应用以惊人的速度渗透到各个国家,各个行业,各种场景和领域,新技术的有效性已经在多个领域被验证和确认,人们有机会以全新的生产方式和生产关系完成现有的工作和任务。

2024年开年,OpenAI发布了王炸文生视频大模型Sora,它仅仅根据提示词,就能够生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,以Sora为代表的AIGC,正以其独特的方式,重新定义着人们与数字世界的互动。

渗透医疗金融驾驶多领域 AI或将成为基础设施

AIGC交互界面的用户友好性、大模型开源及API(应用程序编程接口)价格的降低、插件服务带来的应用生态繁荣等,都使得AI技术或将成为像水、电、网络一样的基础设施,渗透并改变千行万业。根据爱设计等多平台联合发布的《2024年AIGC发展趋势报告》,在医疗领域,AI的应用已能够精准辅助诊断,例如Google Health的深度学习模型,在乳腺癌筛查中的准确率已超越人类专家。利用强大的图像识别和模式分析能力,这些模型可以从成千上万的X光片中识别出极易被人眼忽视的细微变化。

金融领域也经历了由AI推动的变革。金融机构利用复杂的算法来预测市场趋势、管理风险,甚至自动执行交易。机器学习技术能够分析大规模的历史数据,识别出人类难以察觉的模式。例如,通过深度学习,AI可以在高频交易中捕捉到微小的市场变化,并在毫秒级做出反应,这是任何人类交易者所无法比拟的。

自动驾驶领域的AI应用,展示了AI能够在高度复杂和动态的环境中执行任务的能力。特斯拉的Autopilot、谷歌的Waymo,这些自动驾驶系统使用了先进的传感器阵列和AI算法,实现了车辆的自主导航和决策。它们的表现日益接近人类驾驶者,甚至在某些情境下超越了人类。

在娱乐和创意产业中,AI也为人类的创造力打开了新的维度。OpenAI的DALL·E能够根据简短的文本描述生成惊人的图像作品,AI音乐程序能够创作出动听的旋律。这些AI工具不仅激发了创作者的灵感,也改变了艺术创作的方式。AI的这一创造性成果是前所未有的,它为人类文化的多样性贡献了新的元素。

AI“擅长”生产虚拟内容 互动娱乐行业出现重大变革

以生产虚拟内容为主的互动娱乐行业受到了来自AIGC的强大影响。点点数据一份关于AIGC对互动娱乐行业影响趋势的洞察报告认为,以游戏、视频、网文、音频等为主的互动娱乐行业,不仅在内容的生产方式上受AIGC影响产生了结构性的变化,并且内容本身的呈现形式也将出现巨大变革。

该报告列举的案例中,国内一款结合AIGC功能打造的手机游戏《逆水寒》中首次出现了“智能NPC”。NPC之间会自主地产生交互,且不仅仅是只限于文本内容的聊天,而是包含移动、送礼、交易,甚至决斗等行为,并且过程中玩家也可以随时加入互动,从而影响NPC的行为。更让玩家意外的是,NPC是具备“记忆”的。如果你对NPC示好,在下一次碰见时,他可能会主动叫住你,和你说一些悄悄话,或就之前的事情再次与你相聊甚欢;而如果玩家与NPC交恶,那NPC也会拒绝和玩家多聊天,甚至一言不合还会兵刃相见。

而游戏中除了智能NPC以外,NPC语音生成、NPC说话口型、玩家创建角色一键捏脸(输入文本即可生成脸型)等系统,也都深度结合了AIGC功能,并为游戏贡献了非常高的玩家粘性和话题热度。

另外一款国产热门游戏《蛋仔派对》,在2023年6月周年庆版本的更新中,新增了创意工坊“生成器”功能,提供了图片墙(上传的图片自动生成像素图)、像素文字(输入文字生成像素图)、花朵(输入参数批量生成花朵)三类生成功能。而随着后续的版本更新,生成器的功能也在不断增加和完善,特别是去年12月更新的“万能生成器”,更是再次突破了UGC创作上限。玩家只需输入提示词,就能在游戏内直接生成对应的物品,并布置到场景之中。

被短视频制作者熟知的“剪映”App,已可以提供从文案编辑、一键成文、视频生成、AI作图到最终剪辑成片的一站式服务,包括:基于用户输入的主题和内容要点生成文案;根据文案内容一键生成视频并包含配音字幕等基础视频内容;用户输入提示词即可生成视频内需要的画面和动图;内置AI写真、AI特效、AI作图等功能方便用户自制素材;人声美化功能帮助用户生成个人的音频数字分身等等。这些功能都深度结合了AIGC,即提高了创作效率,也下放了创作门槛。从实际效果来看,虽然单个功能的效果可能目前很难以与ChatGPT、Midjourney、Stable Diffusion等专业的图文生成软件相媲美,但其提供的资源整合性、使用便利性以及生成素材直接用于视频剪辑的一致性,让用户在使用过程中的实际体验流畅且高效。

AI发展应尊重人类价值 法律法规不断完整完善

需要警醒的是,AI在特定领域中的成功,也揭示了其所面临的限制。随着AI从实验室研究走向现实场景这一过程的推进,技术、法规、伦理以及社会接受度的挑战逐渐浮现。要充分发挥AI的潜能,需要在这些方面寻找平衡,以确保AI技术能够在尊重人类价值的同时,推动社会进步。

随着越来越多的内容由AIGC生成,内容的准确性和可信度也就成为接下来的关键问题。可以预见,在未来,AIGC将会引入更多的算法和机制,以应对虚假信息、抄袭和其他违规行为的挑战,确保生成内容的真实性、合法性。

企业层面,例如游戏和软件平台Steam在2024年1月10日发布最新公告,对“AIGC+游戏”的态度做了大幅调整。将涉及AIGC的游戏分为了“预生成内容”和“实时生成内容”两个大类,无论哪一类开发者都需要提交相关内容来阐述AIGC在游戏开发和运行过程中是如何被运用的,并且这些信息也会披露给玩家。与此同时,玩家也可以在游戏中随时就AIGC相关内容进行举报。这是首次由头部游戏平台公开发表并明确对涉及AIGC相关产品的态度。

除了类似Steam这样的平台在不断调整策略外,全球各国在法律层面也在不断完善相关法律法规。就互娱产品中最常见的图片内容来看,韩国发布的《生成式AI著作权指南》,明确AIGC内容不受版权保护;而美国政府则认为由AIGC直接生成的作品不受法律保护,但通过与AIGC合作、并体现了人类创意成果的作品,是可以获得版权保护的。

在我国,2023年7月13日,国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》,旨在促进生成式人工智能的健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益。北京、上海等地也相继出台相关规范和条例。

目前,关于AI的合规问题主要涉及数据、AI产品、个人服务和行业应用。国际数据公司IDC指出,在法律法规的框架下,所有大模型和AI生态厂商都必须认真对待新一代人工智能产业中的合法合规问题,特别是通过算法模型的优化,增强人工智能的可解释性。

文/本报记者 陈斯