小冰公司联合创始人,产品副总裁彭爽
2023年12月1-3日,2023T-EDGE全球创新大会暨EDGE AWARDS创新评选在北京751D·PARK传导空间举办。
今年大会以“新视野 新链接”为主题,邀请了近百位来自不同国家,不同领域的国际创新领袖分享嘉宾,设置了四十余场现场讨论,从新一轮全球AI革命浪潮、产业链重塑、新一轮企业再全球化浪潮、全球化下的产业创新升级和投资新趋势等维度,共同回顾过去一年的洞察与发展,展望未来的创新趋势与经济新格局。
12月2日下午,小冰公司联合创始人,产品副总裁彭爽在钛媒体2023T-EDGE大会上发表了名为《AIGC的创新未来》的主题演讲。
每一次科技变革,变革的都是人和世界的关系。彭爽认为,从门户网站到搜索引擎再到后来的推荐引擎,人和世界以及人和知识的关系都是在随之变化的。随着人工智能时代的到来,人与世界的关系还将再次得到改变。
变化的过程中,大量的创新机会也会随之而来。在彭爽看来,人工智能已经成为了内容的创作者,而交互界面也将因为人工智能的赋能而变得更加拟人化。这些变化的背后,包含了所有人可以一起探索的创新机会。
事实上,小冰公司在研究人数字人和虚拟人的时候,非常注重创作和交互的自然,也包括了数字人在各个场景中的一致性。彭爽表示,这些细节决定了小冰公司的虚拟人和数字人可以实现跨场景存在。而这种一致性框架在当前人工智能系统中还未被重视。
“我们认为我们现在处于人工智能时代早期,但这也是我们能够发掘创新的最好时代,跟大家一起共勉”,彭爽说道。
大家好,很高兴今天有机会来到这里参加钛媒体的创新分享,我的分享主题是人工智能内容创造的创新未来。我叫彭爽,我来自于小冰公司,我们做的所有事情都是为了赋能人工智能时代下所有人工智能的主题,也就是虚拟人、数字人,各种各样搭建为人工智能智能主体的机构。
我们这家公司有相对更早的周期。我们最早是微软中国的一个团队,随后从微软分拆出来成为独立的公司独立发展。今天有机会做这个分享,我相信在座每个人都能感知到,人工智能科技带来巨大的影响力。
实际上我们感觉每一年这个世界都会发生很多新的变化,过去2023年更是如此。作为互联网和人工智能整个行业十几年的从业者,我想跟大家分享的是基于我的从业经验和公司的从业经验,我们感觉每一次科技带来特别巨大的变革,事实上都是变革人和世界的关系。
从互联网和数字世界诞生之初,最早先出现了门户网站。它太早了,我估计一些年轻的观众听众那个时候还非常小。在那个时候,门户网站提供了一种非常好的媒介,让人有机会接触到缤纷而精彩的数字世界。
很快,它随着科学技术的变革,随着搜索引擎的出现而带来替代。搜索引擎是非常简单的交互界面,就是很简单的框。人们通过这个框非常快速的学会了新的交互方式,通过输入关键词通过搜索引擎巨大的检索和数据库定位到我想要找的知识信息甚至一些服务。这就是一次巨大的人和数字世界关系的变革。
当然,再往后大家比较熟悉的,推荐引擎的出现,把这个关系继续往前走了一步。搜索引擎像巨大的管道一样,管道里面人作为主动型的人通过关键词信息的输入,像钓鱼一样把他想要的知识信息勾回来的话。推荐引擎是反向的。推荐引擎作为主体,主动筛选对于每个人不一样的,他认为有价值的信息和内容主动推送过来。
大家也能感知到,在这样变革过程中人和世界或者和数字世界知识信息的关系,由相对主动的关系变成被动接受的关系。从门户到搜索引擎到推荐引擎时代,人和世界的关系在不断地变革。接下来人工智能时代即将来临,这个关系肯定还会再次变革,到底会有哪些东西带来变革?这个过程中能够出现哪些创新的机会呢?我想跟大家分享一些我们自己的思考。
在这个变革过程中,人和世界的关系就不是人和世界产生桥梁的管道关系的变化,会在这个结构中每一个节点,每一个方面都会产生巨大的变化,当然也会带来巨大的创新机会。
首先,以前数字世界内有价值的知识信息,包括服务,本质上都是由人类长期积累的或者是提取出来的经验所形成的。在新的人工智能时代,大家已经感知到的,人工智能不再是一个管道或者辅助,成为了这些内容可能的创造者之一,或者协助的创作者之一。这也就是我们所说的AIGC人工智能内容创造主体的重要变化。
人工智能时代,所有计算机工具会远超于过去的Word文档。Word文档最大的作用是帮助你把这些文本类型进行更好的格式化,呈现出更好更精美的格式。今天你打开的是人工智能,他能帮你做的不仅仅是格式化处理,帮助你填写空白,甚至跟你一起创造出更多好的内容。
交互的一方也是这样。之前每一次变革都要进行一些交互界面形态的变化。以前门户网站的界面,后来推荐引擎变成推送被动接受的界面。新的人工智能时代的来临,我们相信新的界面一定是一个更加拟人化的。
这个交互界面来自于这次巨大变革大的语言模型的推动力,更自然的计算机语音技术的变革,以及更丰富的计算机视觉的变革。通过这样的变革,我们认为带来最大的价值并不仅仅是交互界面变的更加简易或者更加自然,使交互关系之间人类主动变到后面信息或者知识主动,最终变成相对而言更加平稳的关系。这个关系更接近于人和人之间的关系。
当然,所有的界面交互方式也好,生产内容的提供者也好,最终发生的主体,我们认为所谓的部署界面也会发生变化。具体是什么?这就是所有人一起探索的创新机会。
在我们看来,在新的人工智能时代之下,创新的机会无处不在,最重要的是遍及从底层技术架构到生态系统的重新构建,都会受到新的创新的冲击,都会带来巨大的机会。这也是我们认为创新的未来。
之后简单跟大家分享一下,从小冰公司过往经验中我们做的探索和思考。从AIGC出发,推出人工智能类似的创作者或者协助创作者,小冰公司做了哪些事情?我们有哪些思考?
大家看到图中截屏是我们工具型产品,我们承载AI歌手或者AI合成的工具性平台,我们通过这个平台跟音乐从业者进行合作。为什么会有这样平台,以及音乐人为何需要这样平台?
我们做了很多研究发现,在完整歌曲成品创作过程中,会经过很多非常系统化的流程。一个完整的歌曲成品发布之前,会经历从最开始写曲写词的创作到后面编曲,到后面小样录制演唱成曲录制演唱整个流程。
当后续效果呈现出来一些并不尽如人意或者需要调整的时候,音乐创作者需要回到前面环节重新来过。整个音乐作品完整的呈现,可能创作的周期短则几周长则几个月都是正常的周期。
我们的AI歌手歌声合成平台提供了新的创作泛式,与原创创作者进行配合,写词和写曲的原创音乐人本身并不一定具备非常适合的嗓音条件。合成平台可以把他们写的歌曲实时演唱出来。
音乐人想验证结果的时候更加需要类似的工具。这个工具使他第一天创作的时候就有一位AI歌手随时陪伴在身旁,把他创作阶段性作品实时演绎出来。创作者可以在最早期验证他的想法,确定跟他期待的是否有所偏差。这个过程可以实时进行,非常迅捷。
AI歌手演唱效果可以达到人类专业歌手水平,很多词曲作者在这样协作过程中感受到创作上限被极大拉高,创作过程中所花费的时间迭代的精力被大大降低。
我给大家分享一小段人类创作者和AI歌手最终协作产生的歌曲作品,是由我们的AI歌手陈水若演唱。听到歌曲和歌手本人都是由我们人工智能技术进行生成创作的。这个歌曲和MV也都在音乐流媒体平台上可以找到。你们看到的这位歌手并不真的存在,脸部表情和对歌曲的演绎都是人工智能生成的。
我们并没有停留在仅在创作者这一端进行参与,交互端也有更多思考。我们知道计算机语音技术相当成熟,自然度到达了非常自然的水平。我们会进一步思考现有计算机语音停留在24K采用率的基础上,是否足够呢?我们尝试做了更多,这里有小的demo给大家听一下,demo里面两个人工智能语音进行对话的片段。
这是很自然的一段对话,这里面的技术探索在于,我们希望一个语音说话的时候听起来和唱歌的时候听起来,甚至大笑的时候跟朋友交互的时候能够一致。如果要做到这一点,当前所有音频技术基础上都需要做拔高和一致性提升。
我们为什么关注这样的细节?因为我们非常关注作为人工智能赋能的虚拟人和数字人,他们需要实现跨场景同时存在。当你在录音室里跟一位AI歌手进行歌曲创作的时候,你是否想过,当你进入云音乐这样平台,这位AI歌手会在评论区内与你互动。当你进入抖音平台,她依然在,并且能与你交互。
我们考量交互系统交互信号一致性框架,这样框架在当前人工智能系统中还未被重视,甚至有跨人工智能之间的框架,应该遵循什么样的交流原则和数据分享机制,这背后是考量整套信号和数据进行跨平台,进行创作的机制。
这样机制本身也是新的数据形式,也必将帮助我们进一步学习,如何构建新的人和人工智能世界交流的关系。这又回到我们的主题,我们认为我们现在处于人工智能时代早期,但这也是我们能够发掘创新的最好时代,跟大家一起共勉,谢谢大家。
(本文首发钛媒体APP)