来源:环球网
过去的2023年,大模型呈现井喷式增长,更是进入“百模大战”阶段,而绝大多数产品以自然语言对话为主要功能,提供聊天对话、创意写作、代码生成等服务。到了今年春节期间,Sora的横空出世,不管在视频时长、稳定性、保真度、一致性以及分辨率等方面都展现出惊艳的效果。
对于国内企业来讲,AIGC软件A股上市公司万兴科技(300624.SZ)在今年1月发布国内首个多媒体大模型万兴“天幕”,并宣布将在4月28日正式公测,进一步优化“天幕”性能和体验,同时探索多媒体大模型技术在不同领域的应用潜力。
未来,万兴“天幕”近百项音视频原子能力将全面集成到公司矩阵产品中落地应用。且公测期间,万兴科技将重点开启视频创意、音频创意、图像创意等领域多个场景下的应用测试,如文生视频、视频生视频、文生音乐、文生音效等。其中,视频生视频功能支持一键视频风格转换,让画面更出彩;文生音乐、文生音效进一步升级对文本的深度理解,以及基于内容理解生成对应风格音频的多维整合能力,支持输入文本生成拟真声音及倍速音效。
大模型2.0时代:以音视频多媒体为载体
“如果将图文形式定义为大模型1.0时代,那么今年是快速进入以音视频多媒体为载体的2.0时代。”万兴科技副总裁朱伟在接受环球网记者采访时称。而他之所以如此说,也是有依据可循的。
根据《中国网络视听发展研究报告(2024)》,截至2023年12月,我国网络视听用户规模达10.74亿人,网民使用率98.3%,网络视听作为“互联网第一大应用”的地位愈加巩固。此外,2023年,移动端网络视听应用人均单日使用时长为187分钟。而短视频用户的黏性最大,人均单日使用时长达到151分钟。作为“追剧”和观影的主要平台,长视频平台以人均单日使用时长112分钟紧随其后。
且QYResearch最新研究显示,预计2029年全球专业音视频系统市场规模将达到3632.7亿美元,未来几年年复合增长率CAGR为5.0%。如此视听风潮下,利用大模型生成视频,恰逢其时。朱伟表示,手机摄影技术不断发展,随时随地记录美好画面成为越来越普遍的生活方式。而AI能力让人们在编辑视频上越来越容易,创作欲望与需求也在渐渐强大。
不过,现实仍还是存在一定阻碍。朱伟向记者指出,当前大模型在文本和图像领域已经实现生产力商用,但在音视频领域的应用还存在数据集缺失、视频内容结构及层级复杂、算力成本高等挑战,成熟应用尚需周期。
“在此基础上,需要建立一个智能工程。好比建房子,你不仅要有好的砌墙师傅、设计师,还要有个工程人员,来规划先干什么,后干什么。有了数据、算法、算力,整个工程如果没办法智能化,是没有办法做训练的。”朱伟称,万兴科技在工程板块的人员规模与算法板块是持平的,人力投入成本较大。
打造基于大模型架构的AIGC应用基础底座
正如前述所言,2024年将是AI视频之年,这一趋势毋庸置疑。而正因基于深耕创意软件20余年,万兴科技在音视频数据、跨模态和多媒体技术上有丰富积淀,对全球多媒体创作者有更为深刻的理解,发布了万兴“天幕”。朱伟表示,现在的万兴“天幕”也许不尽完美,但正因为不完美,才更对未来无限憧憬,并愿为之不懈努力。
此外,他指出,Sora是做基础模型的,而万兴科技是以应用为主,并不会在基础模型上去追赶Sora。开源的模型已经有大量的数据训练,可以直接在此基础上做垂类的训练。“我们没有去做最底层的L0层模型,L0.5层往上走,也就是基础往上一点做训练,主要因市面上还未出现经过数百万小时视频训练后并开源给大家使用的大模型。进一步来讲,一些基础数据训练后,接下来需要一些微调、精调的训练,而这些数据是很关键的。”
作为国内首个音视频多媒体大模型,万兴“天幕”聚焦数字创意垂类创作场景,基于15亿用户行为及百亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,打造基于大模型架构的AIGC应用基础底座,全链路赋能全球创作者,推进大模型进入2.0时代。
当前,万兴“天幕”大模型已通过中央网信办备案,能力方面已涵盖文生视频、视频生视频、文生音乐、视频配乐、文生音效、文生图、图生图等原子能力,相关能力已在万兴科技旗下产品规模化商用。其中文生视频能力上,已实现不同风格、丰富场景及主题的连贯性,且一键生成时长支持60秒+。
且一直以来,万兴科技坚持“全球运营”理念,已在海外市场渠道营销和海外用户运营方面建立了深厚基础。万兴科技目前已在北美、日本、新加坡、韩国等主要销售区域设立了分公司及子公司,销售客户遍及全球200多个国家和地区。2023年上半年,万兴科技海外收入同比增长35%,收入占比超90%。
关于此,在朱伟看来,主要是指拥有大模型能力的产品出海。“对于国内市场,目前是用户规模最大的市场,今年开始我们也在利用大模型在服务B端,因为从付费形式讲,B端更容易看到效果。从去年到现在,我们在政企服务这块,整体销售取得不错成绩。”朱伟称。