来源:环球网
OpenAI年初掷出的炸弹——视频生成模型Sora,激起层层浪花,根据简单几句提示,Sora便能准确“理解”文本,生成长达60秒的视频,在保持高视觉质量的同时忠实再现用户指令。在全球科技领域,一股新的浪潮正在兴起,这就是以人工智能为主导的文生视频时代。
作为一家专注于多模态人工智能生成内容(AIGC)的公司,HiDream.ai 智象未来团队在图像和视频生成领域取得了显著的成果,为行业的发展注入了新的活力。近日,记者来到了,国内生成式人工智能初创公司智象未来(HiDream.ai),看看中国专注于多模态人工智能生成内容(AIGC)的公司到底发展如何?
中国自研“智象视觉大模型”
“OpenAI在不断前进,Sora刺破了人工智能领域的认知边界,让大家又一次感受到,他们没有停下,前进的速度看似更快。”面对全球竞争对手,智象未来创始人梅涛分析当下人工智能行业现状时说:“自2022年ChatGPT点燃全球大模型领域浪潮以来,如今模型层已经从原来的纯文字大模型,逐步走到多模态(包括文字、图像、视频、3D模型等)大模型的探索。”
智象未来的成立背景深植于对人工智能未来发展的深刻洞察,从成立之日起就立志做自研的生成式多模态基础模型,聚焦多模态内容生成,是国内这个领域起步最早的初创公司。目前在基础模型层面,智象未来团队已经完成图像 Diffusion Transformer 架构 百亿参数规模的训练,计划 2024 年 Q1 推出重大迭代的图像基础模型(V3.0);同时,他们也在积极将这一技术迁移到视频生成领域,预计三月底实现视频基础模型大幅升级(V2.0)。智象未来的独特之处在于对视频生成过程中的关键要素——视觉故事性、内容确定性、超高清画质(4K/8K)以及全局和局部的可控性——的专注。
众所周知,在人工智能领域,技术创新和突破是推动行业发展的关键。在产品层面,智象未来团队在文生视频上创新了一套自己的思路:不仅仅只是直接从文本向视频转换,而同时也综合考虑了从文本先向图片转换,生成关键帧,再由此在时间维度上前后进行拓展。这种方法不仅能够提高视频生成的稳定性、细节处理和美感,还为视频生成的时长拓展提供了可能性—— 从一个简短的 prompt 出发,通过大语言模型自动生成分镜头的脚本(script);然后针对每一个镜头脚本,通过 “文生图” 的方式生成一幅图(关键帧),并生成表达整个视频内容的核心要素“故事板(Storyboard)”;再将这些故事板中的每一幅关键帧通过 “文图结合生成视频” 的方式转换为单一镜头的视频(单个镜头的时长不再固定为4秒,而是在4-30秒之间根据情节的需要变化);最终将这些单镜头视频拼接成一个完整的视频,形成更长时间的具备完整情节和叙事性的多镜头视频。
新质生产力正在释放影响力
生成式人工智能通过综合运用大数据、大算力、大模型,展现出惊人的创造能力,生成式人工智能作为新质生产力,正从广度和深度上影响人类发展。
作为一家专注于多模态人工智能生成内容(AIGC)的公司,智象未来非常务实,梅涛说:“我们的目标是以实际行动,通过可视化 AIGC 赋能千行百业。为此,一方面,智象未来坚持自主研发、打造视觉多模态基础模型,避免在基础技术上受到掣肘;另一方面,让基于大模型生成的内容,能真正进入影视制作、品牌营销、视觉设计等数字创意的业务流中,切实给用户带来非一般的体验。”
值得一提的是,智象未来在视频生成商业化探索方面也走在了前列。目前,智象未来(HiDream.ai)推出小程序千象万相(Pixeling)、E象商拍(PixMaker)。早在2023年底,智象未来的底座模型“智象多模态大模型”就完成了网信办模型和算法备案,成为国内第一批完成双备案的多模态初创企业。梅涛说:“我们希望通过AIGC产品唤醒创造力,解放生产力,形成良性创作生态。目前与超过20家不限于电商、运营商、影视等KA客户完成了签约,仅千象月活用户已接近10万,E象签约的电商客户超过了2000家,商业化实现阶段性里程碑。”
梅涛透露,其用户群体中并非仅有专业人员,甚至包括自媒体、企业人力资源和市场部、全职太太等非专业人士,这预示着整个行业正在走向为普通人的更好工作和美好生活加持的一种“普惠工具”。据悉,多模态人工智能生成内容(AIGC)市场前景广阔。 2023 年,通过AIGC产生的图片数量已达到 100 亿,预计 2026 年将超过两万亿。这一数据充分展示了多模态AIGC市场的巨大潜力,也预示着人工智能技术在内容生成领域的广泛应用。
“智象视觉大模型”的未来可期
要叩开以可视化 AIGC 赋能千行百业的大门,创造力与生产力是两大金钥匙。
智象未来的独特之处在于对视频生成过程中的关键要素——视觉故事性、内容确定性、超高清画质(4K/8K)以及全局和局部的可控性——的专注;在产品层面,智象未来团队在文生视频上创新了一套自己的思路。他们不仅仅只是直接从文本向视频转换(这也是Sora目前的思路),而是也综合考虑了从文本先向图片转换,生成故事板(storyboard),再由此在时间维度上前后进行拓展生成整个视频故事。这种方法不仅提高了视频生成的稳定性、细节处理和美感,还为视频生成的时长拓展提供了可能性。
文生视频时代的到来,标志着智能新纪元的开启。在这个时代,只要我们敢于创新,勇于适应,就能在这场智能革命的浪潮中找到属于自己的位置,创造出无限的可能性。我们有理由相信,中国AIGC 创业公司在文生视频时代的浪潮中能够乘风破浪,它将在未来的人工智能领域中创造出更多令人瞩目的成就,迎接一个更加美好的未来。