编辑:编辑部
ChatGPT国内赛,又有一位玩家交卷了。
今年2月,国内赛正式宣战,各方势力轮番出场。当时,出门问问创始人、CEO李志飞就是高调入局的创业者之一。
才过了两个多月,就有结果了。
4月20日,出门问问的自研大模型「序列猴子」正式登场。基于这个大模型,出门问问也推出了面向创作者的一站式CoPilot的AIGC产品矩阵。
具体包含以下四款产品:AI写作平台「奇妙文」、AI绘画平台「言之画」、AI配音平台「魔音工坊」、数字人视频与直播平台「奇妙元」。
划重点:四款产品开放注册,全部直接可用!
奇妙文
据了解,出门问问的四支AIGC产品均于发布会当天即开放体验,其中「魔音工坊」的声音克隆功能将于后天正式上线。
这还等什么,赶紧冲一波先。
体验地址:write.mobvoi.com
打开主页,右上角就写着大大的:登录/注册。
我们只需用手机号注册一个账号,就可以开始体验了,和其他需要邀请才能进行内测的产品完全不同。
而且,开局送的这个额度,看起来还挺有诚意。
根据官方的介绍,AI写作助理「奇妙文」覆盖了职场办公、市场营销、新媒体和创意写作四大内容创作场景。并且开放了8大AI编辑功能,分别为风格转换、要点提取、校对纠错、续写、改写、扩写、缩写、翻译。
顺便一提,我们可以在「奇妙文」中利用下面这个框,直接调用「序列猴子」的语言、知识、逻辑、数学、推理以及解决问题的规划能力。轻松实现连续对话等功能,甚至还能让它给一段文字进行配图。
相当于,新媒体文案这一块儿,写稿、视频、小红书、知乎「奇妙文」全包了。
测试开始,先来让它给「新智元」账号写一个简介。
在提示框中输入账号名称,目标用户,具体描述特点,以及关键信息。
输出的第一段中规中矩,涵盖了提示的几个点。
让人意想不到的是,在接下来的内容生成中,不仅点出我们提供前沿科技资讯,还提供互动平台。
嗯,你是懂「新智元」的。
再让「奇妙文」给「SpaceX星舰首飞爆炸」起个标题吧。
给出一段具体内容:
经历过推迟风波后,埃隆·马斯克旗下太空探索技术公司SpaceX的新一代运载火箭星舰终于点火发射,但在空中爆炸,首次轨道级试飞以失败告终。马斯克随后发文回应,先是祝贺了SpaceX团队的努力,并表示为几个月后再次发射学到了很多。
「奇妙文」言简意赅,给出了标题「SpaceX星舰试飞失败,马斯克:学到了很多!」。
选择风格转换中的「自由幽默」后,它开始将马斯克亲切地称为「马院士」。
而且,它还会从文中提取要点,挨个起标题。
最近走火的淄博烧烤,已经成为全民级网红打卡地。
淄博烧烤最吸引人的,就是其独特的「吃法」小串+小饼+小葱,还诞生了小饼烤炉加蘸料,灵魂烧烤三件套。
不如用「奇妙文」写一个小红书种草文案。
不仅用了各种表情包,而且短短几行字,分析的面面俱到,最后还附上了标签#,有那味儿了。
虽然三段式的写作方式多少有些出戏,但让AI根据这个内容生成的配图,还是非常惊艳的。
不得不说,这冒着油的两串烤肉,还真有些让人垂涎欲滴。
而让「奇妙文」生成一段自我介绍后,我们也让它给自己配了一张照片。
可以可以,毫无违和感,非常技术男(狗头)。原来在这个模型心里,自己长这样。
最近,「车展冰淇淋」这个话题,可是相当的火。
不如就让「奇妙文」以「在车展上卖冰淇淋」为题,给我们讲一段脱口秀吧。
你别说,它还挺有创意。为了吸引有钱人,它提议推出「法拉利红」「保时捷黄」「兰博基尼绿」口味的冰淇淋。
而为了吸引车迷,它觉得可以在冰淇淋上放一些车轮、门把手。
嗯,它在做一种很新的冰淇淋。
另外,「奇妙文」还能为我们提供短视频灵感。
那就请它给咱们提供一下「龙傲天誓死守护刘波」这个短视频的创意吧。
没想到,「奇妙文」走的是鸡汤风格,「真正的勇气不是不害怕,而是在害怕的时候,依然能保护自己所爱的人。」
小编承认:可恶,被这个AI感动到了。
现在,但凡是个大语言模型的评测,大家都会出道「鸡兔同笼」试上一试。而各路研发团队看到这个架势,估计也纷纷连夜给模型单独做了加强训练。
为了避免「鸡兔同笼」这四个字可能会触发的隐藏机制,我们特地在测试中换成了「萝卜白菜」:
小明和妈妈去市场从而买菜,已知白菜5元1斤,萝卜8元1斤,总共买了10斤白菜和萝卜,花了62元,那么白菜和萝卜各买了多少斤?
不错,第一次就成功地解出了答案。
考虑到模型的随机性,我们又进行了几次测试。
但结果却是,有时候能做对,有时候做不对,效果比较一般。
此外,「奇妙文」其实是可以轻松拿捏一些简单代码的。但可能是文档设置的问题,将生成的代码添加进去之后,格式就没有了……
比如,让它写一段计算阶乘Python代码。很明显,这个缩进是不对的。
现在,我们让「奇妙文」修改一下。
很好,AI不仅判断出了代码本身并没有问题,而且也成功地对缩进进行了修改。
但添加进文档之后,就一秒破功了……
不过,从官方的介绍来看,「奇妙文」目前重点关注的还是文字编辑场景。
「奇妙文」能够在用户撰写年终总结、客服话术、剧本、广告文案等内容时,为其源源不断地提供灵感和创意方向。
在这一点上,根据刚刚的体验,通常在多尝试几次之后,基本都会有比较满意的结果。
至于数学、代码这类理工科的问题,模型现在还有所欠缺,但据说团队已经在改进了。
言之画
接下来是另一个已经开放体验的项目——AI画画。
体验地址:paint.mobvoi.com
同样,注册即可获得5次体验机会。
为了凑够评测用的次数,编辑部的小伙伴使出洪荒之力,拉着全公司的同事每人注册了一个。
生成一张图需要消耗10点
在使用时,「言之画」提供了8种图像的风格,但也可以不选。
不过,模型的类型是必选的,比如二次元、通用、照片等。
首先,来个简单的:一杯橙汁。
「言之画」生成的这张图可以打个及格分了,光与影的变幻,玻璃杯的倒影,基本上不违和。
现在,换一个复杂的:「马斯克在苏联工厂狂热地工作,他的生活蒸蒸日上。」
相信很多人都发现了,在用AI作画工具的时候,自己忽然变成了「语死早」。而「言之画」的智能文本生成功能,就是来拯救我们的。
只需微调一下「言之画」生成的内容,我们就可以得到更加完善的提示:
根据这个prompt,「言之画」生成了这张图。而且没想到的是,马院士的手部竟然被处理得相当不错。
人物写实模型
不过,这些粗糙的提示显然还是不够惊艳,不如我们求助一下别人的专业「咒语」吧:
female ornate princess, with white long flowing hair, bright beautiful eyes, trending on artstation, flowers of hope by Jean-Honor Fragonard, Peter mohrbacher, hyper detailed, insane details, stunning, intricate, elite, art nouveau, ornate, liquid wax, elegant, luxury, Greg Rutkowski, ink style, sticker, vector-art beautiful character design, double exposure shot, luminous design, award winning, masterpiece, amoled black background
首先用「通用模型」试一下。
优雅的公主披着白色的长发,大而明亮的眼睛注视着远方,可以说是相当华丽了。
再换「写实模型」看看,姿色天然,简直倾国倾城。
据说,已经有prompt高手用「言之画」生成下面这些神图了。(左右滑动查看全部)
除了传统的网页版文生图外,这两天「言之画」小程序版也来了!不仅能定制各种风格的AI头像,还能一键生成动漫视频。
带着所剩无几的体验次数,小编果断地选择了可以给照片换风格的「魔法神似」。
(看图就好,不必在意其中一个小编的真实性别
)
小编1号:
光影
风潮
小编2号:
仙风
小编3号:
光影
魔音工坊
除了「奇妙文」、「言之画」,出门问问还有最成熟的两个产品:一个是业界Top级的AI配音平台,千万级粉丝大V们都在用的「魔音工坊」,另一个则是AI数字分身「奇妙元」,可以做数字人视频和直播。
在「序列猴子」大模型加持下,「魔音工坊」(海外版DupDub)是全球首款搭载了大模型AI写作功能的配音平台,覆盖了AI写作、AI配音和剪辑等多个场景。
在这里,你可以挑选上千种AI音色,超2000种声音风格、40国语言和11种方言。轻松完成影视解说、有声书、在线教育、新闻播报等集文案与配音于一体的内容创作。
体验地址:moyin.com
此外,「魔音工坊」支持对选定声音进行包括平静、悲伤、开心在内的7种情绪的调节,对包括女中年、男孩等在内的10种角色进行迁移。
同时还开放了韵律调节、局部变速、多人配音等AI声音个性化编辑功能,让用户能够像用word编辑文档一样编辑声音。
除了选择声音、编辑声音,「魔音工坊」还将推出「捏声音」功能,这样你就可以自由选择性别、年龄、语言、风格和情绪等声音特征,从0到1创作自己喜欢的声音了。
配音有了,给它一个完美的外表吧。AI数字形象创作及直播平台「奇妙元」恰恰能够做到这一点。
目前,「奇妙元」现有超100款数字人、超1000款3D数字资产、超1000种声音。
体验地址:weta365.com
凭借多模态生成技术,「奇妙元」目前共支持图片建模(2D数字人)、视频建模(2.5D数字人)、3D建模 (3D数字人)三种不同形式的数字人生成。
其形象克隆功能,仅需一段5分钟的真人视频素材,就可以1:1复刻用户的形象神态,为用户打造声音一致、动作自然的数字人分身。
为啥叫序列猴子?
比起GPT-3的1750亿参数,「序列猴子」的参数量约为几百亿个,是一个多模态大语言模型。
之所以命名为「序列猴子」,是因为它的灵感,来自于「无限猴子」定理。
这是数学家埃米尔·波雷尔在20世界初提出的著名思想实验。
根据该定理,如果一群猴子随机地敲打一台打字机,最终一定会产生莎士比亚的全套著作。这个定理基于概率论和组合数学,阐释了概率的统一性。
而出门问问自研大模型的构建原理,就与「无限猴子」类似。
海量文本序列通过自主算法的不断训练,经由大规模算力消化理解,便练成了「序列猴子」。
目前,这个大模型已经具备了一定的自然语言理解、知识、逻辑以及推理等能力。
可以说,在「序列猴子」大模型加持下,出门问问专为创作者打造的CoPilot能力确实让人眼前一亮。
那么,这家人工智能公司,凭什么能够在国内大模型创业赛道上抢跑?
根据公开资料,出门问问的创始人李志飞,曾在美国约翰霍普金斯大学攻读博士学位,一直研究自然语言处理和机器翻译。毕业后,入职谷歌,主导开发了谷歌手机版离线翻译等一系列产品。
2012年,前谷歌AI科学家李志飞离职后回国,他召集来自斯坦福、马里兰、 MIT,以及清华、北大等海内外著名高校的工程师,组建了称为「美国名校收集器」的出门问问,从0到1构筑起语音识别、语义理解、对话管理、垂直搜索等核心技术,并始终保持世界一流水平。
2015年,李志飞在寻求AI语音的商业化路径时,选择了智能硬件赛道,发布了一系列明星级的智能手表。
接下来的2-3年里,出门问问发布了几款不同的智能硬件产品。这一过程中,这家公司沉淀下一套完整的语音交互技术栈和软硬结合的能力。
2020年,出门问问开始布局生成式AI,GPT-3横空出世,点燃了李志飞对AGI的热情。随后,他组建了十几个人团队,并于2021年发布了大模型UCLAI。
同时,还推出了第一款AIGC商业化产品——AI配音平台「魔音工坊」,这一平台在全球获超百万量级付费用户,正式开启了出门问问AIGC商业化的序幕。
紧接着,出门问问继续在AIGC底层模块化技术进行开发和布局,包括文生语音、文生图片、图生视频等做了很多技术研发。
在2022年,这家公司就已经实现了AIGC产品矩阵的全面商业化落地。
ChatGPT爆火后,再次让李志飞热血沸腾。他两次飞往美国硅谷,和OpenAI、谷歌、DeepMind等各大厂的工程师交流取经。
经过内部多次迭代,直到今天,出门问问发布了让众人惊艳的「序列猴子」大模型。
「序列猴子」以语言为核心的能力体系涵盖「知识、对话、数学、逻辑、推理、规划」六个维度,能够同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务。
除了面向创作者的AIGC产品和面向C端用户的魔法小问,在B端方面,「序列猴子」将开放生态,去赋能更多的行业,让更多企业打造专属的大模型,自己专属的CoPilot。
通过向用户提供API服务,大模型「序列猴子」不仅能提供通用能力支持服务和数字人形象定制服务,还将开放自身角色能力,持续迭代数据接口。企业用户还能通过上传文档的方式,对行业专有内容进行训练,从而实现定制化语音交互。
开放平台地址:openapi.mobvoi.com
据了解,出门问问目前已经与首批十大行业的内测探索伙伴达成了合作,包括汽车、教育、律所、金融、医疗、旅游等领域。
从创立至今,出门问问始终是国内语言技术的开拓者,是一家真真切切做技术的公司。以往,它的AI能力通过可穿戴式的硬件形式进行落地。未来,它将以CoPilot的形式赋能企业和个人。
可以说,我们所看到的「序列猴子」大模型的能力与出门问问自身十多年的AI技术积累一脉相承,从语音助手到智能助理,是其在AI领域十年磨一剑厚积薄发的结果。
正如李志飞所称,「序列猴子」还是一个每天都在不断进步的baby。
通过不断学习,相信未来,「序列猴子」大模型会带给我们更多的惊喜。
参考资料:
https://write.mobvoi.com/
https://paint.mobvoi.com/