AIGC在3月的多方位突破:未见GPT-5,音乐领域先迎"ChatGPT

发表时间: 2024-04-01 17:54

这里是“头号AI玩家”的新栏目:AIGC月刊。每月更新一次,以下是我们梳理汇总的2024年3月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考,也欢迎在评论区和我们交流你的想法~



添加图片注释,不超过 140 字(可选)




添加图片注释,不超过 140 字(可选)




3月AIGC行业趋势


1. Suno V3发布,音乐界ChatGPT刷屏


3月22日,AI音乐生成模型Suno在发布V3版本后火爆出圈,被称为音乐界的“ChatGPT”。


只需要输入文本提示,选择是否纯器乐、音乐风格、主题等,Suno就能智能生成音乐。如果输入歌词,就会生成含有人声演唱的音乐。目前免费用户每天可以生成10首歌,每首歌限2分钟。



添加图片注释,不超过 140 字(可选)



AI在音乐创作领域的应用已经成为技术创新的一个重要方向。如今没有专业音乐背景的用户,也能通过简单的操作生成具有一定水准的音乐作品。UGC音乐平台可能会在AI音乐的发展中崛起。


虽然Suno生成的音乐质量可能无法与专业音乐人的作品相媲美,但在个性化音乐领域,Suno们可能有着更大的就业空间,比如作为线下门店的背景音乐或AI视频的配乐。


体验地址:https://app.suno.ai

相关阅读:《“练习时长两天半,我用Suno发布了首张AI音乐专辑”》


2. Kimi爆火,国产大模型开“卷”长文本


3月18日,AI创企月之暗面(Moonshot AI)宣布其智能助手Kimi在长上下文窗口技术上取得突破,无损上下文长度提升至200万字,即日起启动内测。


随后,阿里的通义千问宣布向所有人免费开放最高1000万字的长文本处理能力;360智脑宣布内测360AI浏览器的500万字长文本处理功能;百度文心一言也将在下月开放长文本能力,文字范围会在200万-500万。


一时间,国产大模型开“卷”长文本。实际上,长文本处理能力在技术圈里并不稀奇,此前受限于算力成本,导致入局者较少,而如今主打长文本的Kimi成为国内现象级AI产品,获得资本热捧,不少大厂也开始发力跟进。


越来越长的上下文长度,将进一步打开对AI应用场景的想象力。不过对大模型公司而言,文本不是越长越好,还要考虑规模化、付费率和成本的三方拉扯问题。


3. AI视频模型激增,行业应用涌现


自从年初Sora引起热议以来,内容行业正涌现出越来越多的AI视频。


3月22日,国内首部AI全流程微短剧《中国神话》上线,由中央广播电视总台视听新媒体中心与人工智能工作室联合清华大学元宇宙文化实验室制作,其中美术、分镜、视频、配音、配乐全部由AI完成。



添加图片注释,不超过 140 字(可选)



OpenAI也发布了最新的Sora短片,由艺术家、设计师、创意工作者以及电影人和Sora合作完成。不少网友留言称,“原来真的能用Sora来讲故事”,“好莱坞HollyWood要变成SoraWood”。


同时,AI视频生成领域的研究非常活跃,新模型的推出速度加快,海外内的互联网大厂和科技公司公开了许多相关研究项目,主要集中在图像到视频方向。


3月7日,阿里巴巴发布图生视频框架AtomoVideo。 3月15日,腾讯联合清华大学、香港科技大学推出图生视频大模型“Follow Your Click”。 3月19日,谷歌提出视频框架VLOGGER,用一张照片可生成文本和音频驱动的口播视频。 3月19日,字节推出视频生成模型AnimateDiff-Lightning。 3月22日,阿里与南京大学、复旦大学的研发团队发布基于3D的人物图片转视频模型Champ。 3月26日,腾讯开源视频框架AniPortrait,可以让照片变逼真的真人视频。



添加图片注释,不超过 140 字(可选)



你可能错过的10大AI热点


1. 商汤科技用AI“复活”创始人汤晓鸥


在商汤科技2024年年会上,商汤基于如影数字人技术,“复活”了去年12月因病去世的创始人汤晓鸥。台上的“汤晓鸥”延续往年的脱口秀演讲风格,有说有笑,跟大家插科打诨,中途还喝了一次水,表情、动作和声音都十分自然逼真。


此前,音乐人包小柏曾用AI“复活”去世女儿,他认为“AI就是寄托思念的工具”。


用AI技术“复活”逝者已经形成了一条产业链,从让老照片动起来到可进行实时对话的数字人,这类服务在电商平台上依据技术难度有不同定价,标价从10元左右到数千元不等。此外,AI“复活”也引起许多关于法律和伦理的争论。


2. OpenAI回应马斯克起诉


近日,马斯克(Elon Musk)起诉OpenAI,称其违反当初立下的创始协议,变成“微软闭源子公司”,引发业界广泛关注。


3月6日,OpenAI发布长文博客晒出了八年来各位创始团队成员与马斯克的往来邮件截图,驳斥了马斯克的所有指控,要点包括:


马斯克对OpenAI需要成立营利性实体是知情的,他清楚非营利组织无法筹集到足够的资金。 马斯克曾想将OpenAI和特斯拉合并,想完全控制OpenAI并担任CEO,并建议OpenAI把特斯拉当作摇钱树。计划没实现后,马斯克离开OpenAI,还说OpenAI成功的概率为0。 马斯克清楚OpenAI迈向其使命的行动不意味着开源通用人工智能(AGI)。


3. Anthropic发布Claude 3模型家族


3月4日,由OpenAI出走团队创立的Anthropic突然推出Claude 3型号系列,距离上一代模型Claude 2的发布,仅相隔8个月。Claude 3包括三个型号,按能力由大到小排列:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。其中,Opus在多项基准测试中得分超过了GPT-4和Gemini 1.0 Ultra。


Claude 3是Anthropic首次推出的多模态大模型,支持用户上传照片或图表,进行分析处理。“头号AI玩家”从长文本处理、创意写作以及多模态能力上,对Claude 3系列模型中的Opus和GPT-4进行了深度测评。


体验地址:http://claude.ai

相关阅读:《看完Claude 3创作的OpenAI连续剧,我都替马斯克委屈》


4. 央视首部AI译制微纪录片《来龙去脉》上线


3月12日起,中央广播电视总台以人工智能全流程译制的英文版中国龙主题系列微纪录片《来龙去脉》在央视频首播。


据介绍,《来龙去脉》系列微纪录片英文版共7集,每集约5分钟,由总台影视翻译制作中心和技术局联合成立“智能译”团队,采用AI技术赋能该片从声音识别、文本翻译、声线克隆到分轨替换等全译制流程。


近期总台陆续推出了多部AI新品,包括AI全流程微短剧《中国神话》、微短剧《AI看典籍》等,《央视频AI晚会》也将上线央视频“AI视界”频道。


5. 全球首部全面监管AI法规获批


3月14日,欧洲议会以523票赞成、46票反对、49票弃权通过了具有里程碑意义的《人工智能法案》(EU AI Act),使其成为全球首部全面监管AI的法规。


欧洲议会表示,该法案旨在保护基本权利、民主、法治和环境可持续性免受高风险AI的影响,同时促进创新,以将欧洲“打造成为该领域的领导者”。


该法案将禁止某些“威胁公民权利”的人工智能应用,包括基于敏感特征的生物识别分类系统,以及从互联网或闭路电视录像中无目标地抓取面部图像以创建面部识别数据库。操纵人类行为或利用人类弱点的AI也将被禁止。


6. OpenAI加持的人形机器人Figure 01亮相


3月14日,美国明星机器人创业公司Figure发布了首款人形机器人Figure 01。作为Figure的合作伙伴,OpenAI的大模型为其提供高水平的视觉和语言智能,并负责理解口语的能力,再通过Figure的神经网络引擎转化成快速、简单、灵巧的机器人动作。


从演示视频中可以看到,Figure 01可以听从人类的命令,递给人类苹果、将黑色塑料袋收拾进框子里、将杯子和盘子归置放在沥水架上,展示了其多任务理解与处理能力。


7. 马斯克开源Grok大模型,参数量3410亿


3月18日,马斯克的AI创企xAI正式发布了大模型Grok-1,其参数量达到了3140亿,超过OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。


Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型。xAI称这是他们自己从头训练的大模型,Grok-1没有针对特定应用进行微调。


3月28日,xAI发布了Grok-1.5,支持上下文长度达128k tokens,对标GPT-4。


开源地址:
https://github.com/xai-org/grok-1


8. 淘宝“星辰”大模型上线


3月21日,淘宝天猫集团自研大模型“淘宝星辰”官网已上线。这是淘天集团公开发布的首个自研大型AI模型。


据介绍,星辰大模型基于Transformer架构,采用半自研的Megatron-ama框架进行训练,从海量电商消费数据和公开数据中持续学习,提供电商和生活服务场景增强的文案生成、多轮会话、知识问答、智能决策等能力。


9. StabilityAI核心技术团队和CEO离职


近日,StabilityAI CEO Mostaque辞职,公司由首席运营官Shan Shan Wong 和首席技术官Christian Laforte暂时兼任联席首席执行官。


Mostaque称自己离职后将致力于去中心化人工智能(Decentralized AI)。关于离职原因,他表示“在Stability AI的股份占了公司的多数投票权,但董事会控制权不在自己手中。AI权力的集中对所有人来说都不好,因此自己决定辞职。”


此前曾参与该公司文生图模型Stable Diffusion的几位关键AI开发人员都已经离开。加上CEO的辞职,Stability已经相继失去了十几位技术人才。除了成员动荡之外,Stability AI融资进展也不太顺利,内外挑战持续加剧。


10. 抖音打击不当使用AI技术生成虚拟人物的账号


3月27日,抖音安全中心发布公告称,近期平台发现,站内仍有不当使用AI技术生成虚拟人物发布内容的账号,平台进行了严厉处置。其中典型行为包括:


生成境外虚假人设,消费爱国心理、博取关注。用虚假外国人的形象,以想嫁给中国、想到中国生活、评价社会事件等言论博取眼球。 生成俊男美女虚假形象,骗取互动,交友导流。直接称用户为“你”“娘”“妈妈”“老公”等,发布情感诱导、唱情歌、为你谋福利等表达虚假情感的内容,将用户导流至私人聊天工具,甚至进行诈骗。 生成精英人士虚假人设,发布心灵鸡汤、财商、伪国学、厚黑学、伪成功学等不良内容,低质吸粉,甚至引流到站外以卖课、入群等方式获利。


针对违规使用AI生成虚拟人物的行为,平台会对违规视频下架,对违规账号进行取消其投稿和营利权限、抹除账号粉丝、封禁账号等处置,并利用模型、技术识别能力等手段,进行长期系统的识别发现和处置。同时,平台已掌握部分黑产团伙不当使用AI生成虚拟人物用于犯罪的线索,将报警打击。



添加图片注释,不超过 140 字(可选)




新上线的5个AI工具(功能)


1. 抖音上线AI社交App“话炉”


抖音近日上线了AI社交App“话炉”,由字节的Flow部门打造。这是一款基于字节旗下云雀大模型驱动的角色聊天产品,用户可以与不同AI角色实时聊天互动,其社交场景主要发生在用户与AI之间。目前,该产品还处于早期阶段。



添加图片注释,不超过 140 字(可选)


话炉页面


2. QQ内测AI对话功能


QQ近日开始内测其AI对话功能“AI聊天搭子”。这是QQ联合筑梦岛、混元助手合作的一项AI对话服务,目前包含有陪伴、故事、挑战、MBTI、名人等不同类型的虚拟角色。



添加图片注释,不超过 140 字(可选)



由于虚拟角色每次回复会产生算力成本,普通QQ用户每天可以与这些虚拟角色聊100条消息,超级会员用户每天则可以聊400条消息。


3. Pika推出AI配音功能Sound Effects


3月10日,AI创企Pika推出AI配音功能Sound Effects,支持在Pika上为视频生成配套的音效,告别了文生视频“静音时代”。



添加图片注释,不超过 140 字(可选)



目前,Pika提供两种生成视频音效的方式,一种是用户通过提示词描述想要的声音,另一种则是AI通过视频内容自动生成。目前配音功能和口型同步功能均已向所有用户开放。


Pika官网:https://pika.art/home


4. Midjourney上线角色一致性功能


3月12日,Midjourney发布角色一致性功能(--cref),只需复制角色图片的链接,并在新的提示词末尾加上“--cref URL(图片链接)”,即可生成一个角色不同造型、不同风格、不同场景、不同视角的图片。



添加图片注释,不超过 140 字(可选)



用户还可以通过“--cw”来调整参照的“强度”,范围从100到0。默认强度为100,系统会参考人物的脸部、发型和衣着。将强度设置为0时,系统只会关注脸部,适用于更换服装或发型等需要重点处理的场景。


这一功能对于AI视频分镜、AI漫画分镜以及游戏动漫IP的一致性管理具有重要意义,同时也为创作者提供了更多的创意空间,使他们能够尝试不同的故事线和场景变化,而不必担心角色形象的一致性问题。


相关阅读:《Midjourney角色一致功能保姆级实测!真有那么稳定、可控吗?》


5. Stability AI推出3D视频生成工具Stable Video3D


近日,Stability AI推出Stable Video3D(SV3D),该工具能够通过图像或文本提示生成3D视频。据介绍,SV3D构建在Stable Video Diffusion模型基础上,针对新视角合成和3D生成的任务进行了调整。



添加图片注释,不超过 140 字(可选)



目前Stability AI专业会员(每月20美元)可将SV3D用于商业用途。对于非商业用途,用户可从Hugging Face下载体验模型。


SV3D博客地址:
https://stability.ai/news/introducing-stable-video-3d

Huggingface地址:
https://huggingface.co/stabilityai/sv3d



添加图片注释,不超过 140 字(可选)



5个AIGC热门案例


1. 小红书AI爆款新思路:美食+萌宠


最近,小红书博主“喵mao星人”发布了一系列用AI生成的柴犬咖啡、泰迪拿铁、哈基米冰淇淋和狗头吐司等创意甜品。凭借萌宠的形象与咖啡、冰淇淋等日常食物相结合,创造出既可爱又有趣的视觉效果,在众多内容中脱颖而出。



添加图片注释,不超过 140 字(可选)



在内容创作领域,差异化是吸引流量的关键。AI在这过程中充当了一个强大的创意实现工具,使创作者能够快速将想法转化为视觉内容。


2. 好莱坞首部AI长篇电影上映


3月6日,由50位AI领域艺术家共创的长达90分钟的AI电影《Our T2 Remake》在洛杉矶举行线下首映礼。该部AI电影翻拍自施瓦辛格主演的经典电影《终结者2》,号称是“全球首部完全由AI生成的长篇电影”,引发行业热议和关注,首映门票一度售罄。


为了制作《Our T2 Remake》,创作者使用多种AIGC工具,如Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe等,制作团队没有使用原电影中的任何镜头、对话或音乐,来确保电影内容均为原创。



添加图片注释,不超过 140 字(可选)



“头号AI玩家”联系到了《Our T2 Remake》的制作人之一Junie,和她聊了聊这部电影的幕后制作过程、影片争议,以及她作为一名独立创作者是如何入局AIGC这波浪潮的。


《Our T2 Remake》线上观看地址:
https://rad.live/watch/feature/3a457e3e-87f1-4607-bf70-38a9c92ab5fe/

相关阅读:《对话全球首部AI电影制作人:幕后制作全流程揭秘》


3. AI猫猫剧情号爆火海内外


几张AI生成的猫猫图片,加上简单的转场特效,配合魔性洗脑的“喵喵”音乐,拼凑成一段有剧情的短视频,这样的AI猫猫AI猫猫剧情账号正在被大量模仿复制,席卷互联网。


以“Cat channel 91”“AiCat7”等拥有百万粉丝的账号为例,爆款AI猫猫剧情视频大多数展示了拟人化猫猫的悲惨遭遇,如车祸、校园霸凌等情景。这类“卖惨”视频通常能收获不少网友和爱猫人士的评论。


4. 影视博主纷纷学起AI说唱


起号仅20天,“谷自囧唱电影”就做出了第一条大爆款视频——用AI说唱解说电视剧《一念关山》,40多分钟的影视剧情被浓缩进1分钟的歌曲中,每一句歌词都对应着角色画面。目前这条视频在抖音获赞超过191万次。


自各种AIGC工具被广泛应用后,互联网上涌现出了不少这类AI说唱影视号,AI降低了说唱解说影视的门槛,无需真人出镜和发声,通过AI声音引擎工具“Ace Studio”就能快速生成影视解说音乐。


5. 几十万网友在线攻略直男AI“陈青山”


“陈青山”,一个万千网友攻略不下来的直男AI。和此前流行的“哄哄模拟器”相似,在这个AI小游戏“脱单模拟器”中,你需要通过语言对话,想方设法提高AI的好感度,让TA爱上你。


“脱单挑战模拟器”由年轻人社区应用“最右”App开发。网友花式玩梗,加上AI出人意料的神回复,使得“陈青山”在各个社交平台上出圈,吸引了众多用户晒出自己的游戏截图和攻略,从而引发病毒式传播。