音视频技术如何助力企业数字化?新趋势解析

发表时间: 2022-11-02 21:15

11月2日,新京报贝壳财经记者获悉,为期4天的RTE2022 第八届实时互联网大会正在进行,在大会上,声网创始人兼CEO赵斌、声网CTO兼首席科学家钟声分别从行业和技术角度对实时互动进行了解读。赵斌表示,比起RTC(实时音视频),RTE(实时互动)更聚焦用户所需要的共享时空,即“场景”。钟声则表示,实时互联网正在日益变得智能化,对实时音视频端到端链路上各个环节场景的实时感知和理解成为实时互动的重要基础能力。

在谈到元宇宙话题时,赵斌表示,空间音频对元宇宙的重要性不容忽视。“如果跟真实有差异,在元宇宙场景下的现场感、沉浸感和真实感就会有大大的损失。”查普曼大学电影学院教授Charlie Fink 也表示,即使在一个3D虚拟世界,仍然需要语音和视频的存在。在圆桌论坛环节,声网首席运营官刘斌、新希望集团首席投资官余峰、微医集团副总裁李磊、水滴保研发负责人卢林等嘉宾,还围绕“音视频技术对未来企业数字化转型赋能的新趋势”话题展开探讨。

本次大会以“聚享万象”为主题,覆盖实时互联网技术、行业、创业、生态、企业责任等话题。今年是实时互联网大会的第8年,自2015年首次举办以来,实时互联网大会成长为全球规模最大的音视频行业峰会,吸引了全球RTE开发者、创业者及行业人士参与,累计影响开发者超过200万。

RTE边界逐步清晰化,元宇宙玩法仍待突破

随着行业的发展,RTE概念与边界已逐步清晰化。赵斌表示,“RTC(实时音视频)更多是在强调对语义信息进行高质量和高效率的传递。而RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。”

最近一年,AI算法在音频领域产生了巨大进化。AI降噪、AI回声消除、空间音频等音频的新技术能力给各种场景带来了更加纯净和沉浸的听觉体验。空间音频对元宇宙的重要性不容忽视。赵斌认为,“人的耳朵是一个超级敏感的器官,对任何声音的变化都是有感知和分辨能力的,如果跟真实有差异,在元宇宙场景下的现场感、沉浸感和真实感就会有大大的损失。”

过去一年,元宇宙的热度仍然在持续飙升,但宣传效果距离现实仍然尚远。 “BeReal应用(一款主打照片分享的社交平台)的爆火让我们看到,真人形象远比虚拟形象更能够在陌生人社交中满足需求。”赵斌表示,在非陌生人社交领域,虚拟形象也是偏小众的弱需求。无论是虚拟形象还是其他玩法,元宇宙如果想在社交领域有大的发挥,玩法上还有更多需要突破的空间。赵斌表示,声网把自己元宇宙方面的能力和API的进化聚焦在了基础能力模块上,以组合的方式来提供。

当元宇宙的热度逐渐飙升,由此衍生的各种新潮玩法为社交娱乐提供了全新的想象空间。查普曼大学电影学院教授、福布斯周刊《本周XR速报》专栏作者 Charlie Fink 认为,“互联网并没有摆脱电视,它使电视变得更好,我相信这就是将在元宇宙发生的事情,即使你在一个3D虚拟世界,它仍然需要语音和视频的存在。”

实时互联网正在日益变得智能化,对实时音视频端到端链路上各个环节场景的实时感知和理解成为实时互动的重要基础能力,声网CTO兼首席科学家钟声认为“仅仅作为一个信息传输的管道,承载不了现在通讯的需求,还要整个实时音视频端到端链路上有提取知识、识别情感、做出决策的能力,成为实时互动不可少的一个要素。”

“实时感知和理解能力,在实时互动多个层面都起到了重要作用,或者说带来价值,包括用户体验感知质量的估计、关于整个传输网络上质量的监测,以及关于场景,尤其是人体、物体的重建,以及用来做人机交互等等。在未来的实时互动场景里,也会有越来越多的需求。”钟声表示。

虚拟现实的结合趋势明显,更多传统企业接受云服务化

音视频技术对未来企业数字化转型赋能方面还会有哪些新的趋势?声网首席运营官刘斌、新希望集团首席投资官余峰、微医集团副总裁李磊、水滴保研发负责人卢林等嘉宾,分别发表了各自的观点。

互联网保险正逐渐向保险的深水区方向发展,即线下经纪人业务。卢林表示,“这个过程中,音视频技术非常有价值,未来通过与用户远程视频聊天,进一步跟保险业务系统打通,可以提供更多元的展示工具和互动,从而提供更加深度、长期的保险服务,这是下一个阶段应用场景下的发展趋势。”

音视频技术也是医疗服务中较核心的手段,李磊表示,“无论是医生之间、医患之间,还是其他场景的服务,音视频使用都非常广泛。我们希望不单一把音视频作为服务方式,而是能够成为服务的触角或入口,更好地服务用户。”

余峰认为,“未来5年或10年猪语音库会很丰富,甚至能识别出更多猪想表达的情绪、语言。同时,目前影像技术可以精准地通过手持估重仪或类似远程监控的方式对猪进行相关估重。所以,我们看到音视频从人与人交流互动,真正到生物资产端,通过猪语音识别、猪形象估重,实现人跟生物、动物之间的交流。”

从云服务商的角度刘斌提出了4点对行业未来趋势的观察,他认为,“第一,云服务化被越来越多传统企业接受,并逐步接受混合云模式;第二,对AI技术的运用越来越多,比如我们有语音AI降噪、空间音频方位识别等等,包括视频人脸识别以及未来的脊柱识别;第三,虚拟现实的结合趋势很明显;第四,在某些有积累的垂直行业会更容易先把低代码做起来,而不是简单地通用低代码。”

新京报贝壳财经记者 孙文轩 编辑 徐超 校对 付春愔