2022年中国音视频行业实时动态分析报告

发表时间: 2022-10-13 15:29

音视频丨研究报告

核心摘要:

发展背景:网络基础设施升级、音视频传输技术迭代、WebRTC开源等因素,驱动音视频服务时延逐渐降低,使实时音视频(RTC)技术成为炙手可热的研究方向。实时音视频业务在消费互联网领域蓬勃发展,并逐渐向产业互联网领域加速渗透。经历了行业第一轮的红利爆发期,我国实时音视频行业的场景效能逐渐深化,步入到理性增长阶段。

市场规模:2021年中国实时音视频(RTC)PaaS市场规模为16亿元,消费互联网领域为实时音视频行业贡献了核心收入来源。受到社交娱乐头部应用的高度渗透及“双减”政策的持续影响,预计未来三年的复合增长率为28.4%,2024年实时音视频(RTC)PaaS市场规模将达到30亿元。

竞争格局:实时音视频赛道玩家的主要竞争策略分为两大类:(1)提供通用的PaaS层能力,包括RTC PaaS厂商、通信云PaaS厂商、综合型IaaS厂商。其中,RTC PaaS厂商在技术研发和产品打磨上具备更高的行业专注度,占据市场的主导地位;(2)根植于特定行业场景,主要为垂直行业解决方案商。

核心技术:实时音视频行业存在较高的资源门槛与技术壁垒。主要包括:软件定义的实时音视频传输网络(Real-time Network, RTN),基于UDP的协议层优化,以及弱网传输保障策略。在实际应用中, RTC与CDN技术的融合,衍生出实时互动直播、超低延时直播两大技术路径。

趋势洞察:实时音视频标准化工作的推进将引导行业迈向更高的服务质量,推动PaaS层厂商与垂直行业解决方案商之间的良性竞争与协作共赢。同时,实时音视频逐渐向实时互动领域的延展,元宇宙相关应用的出现将为消费互联网创造更大的想象空间。此外,实时音视频技术有望成为我国泛娱乐出海企业的差异化竞争机会,海外业务版图的扩大也将驱动行业迎来新一轮的业务增长。

音视频消费习惯的迁移

用户音视频习惯养成,并逐渐向强实时性、强互动性场景延伸

富媒体信息时代,音视频已成为人们获取、发布、交换信息的重要方式。截至2020年底,中国网络视听用户占整体网民规模的比例已高达95.4%。高饱和的渗透率水平,使用户更加关注音视频服务的体验感。得益于底座能力与关键技术的持续突破,音视频服务体系实现了从点播、直播到实时音视频的深化发展。实时性与互动性的长足优化,逐步激活了更多场景下的音视频互动模式,驱动用户的音视频消费习惯向更加还原真实、更加沉浸式的实时音视频服务迁移。同时,伴随疫情的常态化发展,人们远程办理业务的习惯已逐渐养成。实时音视频作为一种通用型能力,撬动了传统行业中众多强实时、强互动场景的数字化升级,也使得实时音视频的消费趋势进一步从消费互联网向产业互联网延伸发展。

网络基础设施持续升级

高速泛在的骨干网络,为实时音视频传输提供坚实保障

实时音视频行业的高速发展离不开国家骨干网络的建设。以千兆光网和5G为代表的“双千兆”网络,近年来取得突破性进展。2021年,我国光纤接入(FTTH/O)端口已达到对互联网宽带端口的高度覆盖,光纤接入能力已普遍超过百兆,并向千兆以上速率不断升级;5G网络已覆盖国内所有地级以上城市,5G基站数累计高达142.5万,用户数占全球的89%。网络基础设施的广泛渗透,使更多用户可以受益于终端设备与骨干网络之间的快速连接,享受到无感接入、触手可及的高质量网络服务。同时,“双千兆”网络在带宽能力上的显著提升,可大幅降低音视频信息的延迟和缓冲时间,提高端到端毫秒级传输时延的满足率,为实时音视频的数据传输与落地应用提供良好的底层网络支撑。

音视频传输技术更新迭代

技术驱动音视频走向实时,流媒体协议迈入毫秒级传输阶段

流媒体技术可将压缩处理后的音频、影像连续性地上传到网站服务器,使文件无需完全下载到本地即可观看。在编解码方面,H.265、国产AVS3等视频解编码技术可以使文件的压缩体积更小、传输速度更快。其中,AVS3作为全球首个面向5G产业应用的音视频信源编码标准,已被成功纳入DVB(数字视频广播组织)标准体系,可以在同等画面质量下比H.265节省40.09%的码率。在协议方面,基于TCP的RTMP、HLS、DASH等协议的优化方案仍存在2-3秒左右的延迟,而基于UDP的WebRTC则突破性地将延迟降低至毫秒级别。与其他协议不同,WebRTC作为流媒体通信框架,覆盖音视频采集、编解码、传输和渲染的全部环节,可以为实时音视频提供全流程的理论依据与技术支持。

商用方案成为行业主流

WebRTC奠定技术框架,在基础上演化出第三方服务商

WebRTC是目前实时音视频领域最流行的开源框架。2010年Google收购GIPS引擎后,将其纳入Chrome体系且开源后,命名为“WebRTC”。WebRTC获得各大浏览器厂商的支持并纳入W3C标准,促进了实时音视频在移动互联网应用中的普及。2021年1月,W3C和IETF两大标准制定组织宣布WebRTC成为官方标准,用户无需下载额外组件或单独的应用程序,便可以支持在网络上的实时音视频通信。尽管WebRTC具有免费开源的特性,但其庞大、繁杂,学习门槛高,又缺乏服务器方案的设计和部署,为基于WebRTC搭建的商用方案留下了发展空间。第三方的RTC PaaS厂商凭借规模效应和技术优势成为开发者的首选,推动实时音视频行业进入发展的快车道。

中国实时音视频行业发展阶段

行业潜力逐渐释放,目前处于场景深化阶段的发展中期

WebRTC开源以及移动互联网的快速发展,使实时音视频技术成为炙手可热的探索方向。顺应用户音视频消费习惯,市场参与者在消费互联网场景的积极实践,拉动了实时音视频行业的第一轮快速增长。当前,我国实时音视频行业正处于场景深化阶段的发展中期,市场前期的良好铺垫叠加疫情带来的远程协作需求,使实时音视频技术在产业互联网场景加速渗透。未来,伴随着行业标准的不断完善,实时互动场景的沉浸式提升,以及海外业务版图的持续扩张,我国实时音视频的行业效能有望迎来新一轮的爆发式增长。

中国实时音视频市场竞争分析

RTC PaaS厂商凭借产品和技术实力占据市场主导地位

根据厂商聚焦的业务重心和发展实时音视频业务的主要逻辑,可将实时音视频赛道的玩家分为RTC PaaS厂商、通信云PaaS厂商、综合型IaaS厂商及垂直行业解决方案商四类。其中前三者以提供通用的PaaS层能力为主,第四类根植于特定行业场景,更倾向于输出PaaS+SaaS的一站式解决方案。就PaaS层而言,RTC PaaS厂商的业务专注度最高,在技术研发和产品打磨上能够投入足够的精力,相比其他类型的玩家也具有一定的先发优势,占据了目前市场的主要地位。

中国实时音视频产业图谱

中国实时音视频商业模式

以基础服务+增值服务,搭建完整互动体验,赋能业务增长

以RTC私有协议推流和拉流的实时音视频服务采用按时长计费模式。实时音视频厂商在选用不同计费方式之上,还会叠加月度免费时长、套餐包、梯度折扣等组合优惠方式。伴随着应用场景的延伸发展,实时音视频厂商也会采取自主研发或与第三方合作的方式,不断充实自身产品能力矩阵。三网融合类、安全监测类、体验增强类增值服务的拓展,保障了实时音视频服务可用性、可靠性、可玩性,赋予用户更加完整丰富的实时互动体验。

中国实时音视频厂商盈利能力分析

资源成本及研发投入水平较高,PaaS厂商毛利率均值约30%

实时音视频行业存在较高的资源门槛与技术门槛:PaaS厂商不仅需要在底层网络建设上投入一定的资源成本,还需要在策略算法优化和产品矩阵打磨上投入大量的研发成本。正是因为行业门槛的存在,实时音视频行业的市场格局较为集中,头部PaaS厂商对于产品价格具备较强的话语权,尚未存在“价格战”。同时,高水平的成本引入,也使实时音视频的产品价格远高于传统音视频产品。整体看来,实时音视频(RTC)PaaS厂商的毛利率均值约在30%左右,受资源禀赋及研发能力的不同的影响,不同厂商的成本结构及毛利率水平会存在一定差异。

中国实时音视频行业市场规模

预计到2024年,实时音视频PaaS市场规模将达到30亿元

尽管实时音视频服务已经开始呈现出向多行业领域渗透的趋势,但就现阶段而言,以PaaS为主要服务模式的消费互联网领域仍然贡献了最核心的收入来源。根据艾瑞咨询测算,2021年中国实时音视频(RTC)PaaS市场规模为16亿元,同比增长10.3%。相较过去几年的高速增长,2021年增速回落的原因主要有两个方面:1)受“双减”政策影响,在线教育领域的收入骤降,2)社交娱乐场景中,实时音视频在头部互联网应用的渗透率已经较高,由高速增长阶段进入平稳增长阶段。疫情于实时音视频无疑起到了重要的市场教育作用,预计未来宏观经济形势转好后,实时音视频将有望在越来越多的产业互联网领域实现落地,同时元宇宙相关应用的出现也将为消费互联网创造更大的想象空间。

实时音视频核心价值及关键技术总览

传输网络保障低延时、高可靠传输,专业组件提升媒体质量

实时音视频相比直播最大的区别在于对端到端时延的降低。在传统直播架构下,时延主要来自于CDN分发和下行拉流环节。而通过搭建面向实时音视频的传输网络,应用低延时传输协议,并辅以弱网传输保障策略,实时音视频实现了低延时、高可靠的音视频传输。在音视频引擎方面,典型的实时音视频场景以沟通交流为核心诉求,对音频的质量关注度较高;而随着实时音视频向实时互动场景拓展,其对降噪、超分等视频画质修复增强的要求也不断提升。

实时音视频传输网络

软件定义的去中心化网络,依托智能路由算法选择最佳路径

实时音视频传输网络(Real-time Network, RTN)是专为实时通信设计的稳定、高质量的传输网络。通常而言,实时音视频传输网络架构在公共互联网之上,采用软件定义网络的方式进行网络虚拟化,专注于通信路由的计算和链路异常的故障恢复。其控制面主要负责网络质量探测、路径规划和规则配置管理,数据面负责数据传输和转发,承担边缘和中转的角色。基于去中心化的架构设计,实时音视频传输网络允许终端用户从边缘节点就近接入,并利用智能路由算法实时计算最优的路径传输,有效解决路由链路和带宽成本的问题。

网络传输协议的选择

基于UDP协议的可靠性优化,为弱网对抗策略提供依据

传输层协议的选择:TCP是牺牲传输实时性来换取数据完整性的可靠传输协议。弱网环境下,其在数据传输前的“三次握手”连接会带来较大延时。而UDP作为不可靠的传输协议,其最大的优点为高实时性,但不保证数据的到达和排序。实时音视频产品往往采用UDP协议,并在此之上进行协议层与算法层的优化,来提高传输的可靠性与逻辑性。

UDP协议的优化:UDP协议往往和RTP/RTCP协议一起在实际应用中出现。RTP负责数据传输,其协议头中的序列号、端口类型、时间戳等字段,可为数据包的分组、组装、排序提供逻辑依据;RTCP作为RTP的控制协议,负责对RTP的传输质量进行统计反馈,并为弱网对抗策略提供控制参数。

弱网传输保障策略:丢包恢复

联动接收端与发送端的“重传+编码”配合策略

弱网环境下,实时音视频在网络传输侧的丢包恢复技术主要包括:自动重传请求(ARQ-NACK)、冗余编码(FEC/RED)、I 帧申请(PLI/FIR)等。实际应用中通常采用ARQ-NACK技术先行,FEC技术兜底的配合策略。并根据NACK成功率、NACK响应时长和FEC恢复率,对整体的抗丢包策略进行实时、动态的调整。具体的技术原理及应用的优缺点如下:

弱网传输保障策略:抖动对抗

根据网络环境自适应缓存,平滑终端流畅体验

虽然丢包恢复算法可以增强弱网环境中数据传输的容错性,但难以解决因网络抖动、解码前各环节抖动带来的乱序、延迟到达等问题,此时往往需要JitterBuffer(抖动缓冲区)来做媒体包的缓存。WebRTC的视频引擎、声音引擎中均包含自适应缓冲模块,一方面可以把收到的乱序媒体包进行排序、组帧;另一方面可以根据网络环境动态调整端到端的缓存时间,通过让步适当的延迟来换取音视频通话的流畅性。打造优秀JitterBuffer的难点在于如何快速、准确地计算网络环境的非稳态变化(包括网络带来的抖动和抗丢包等算法引入的额外延迟),并在延迟和卡顿之间取得较好的平衡。

弱网传输保障策略:码率自适应

根据接收端带宽情况,针对性推送适合码流

丢包恢复、抖动对抗策略可以在有限的带宽下,提供更好的音视频质量,但难以解决多人互动场景下,单一码流无法适应多接收端网络带宽状况不一的问题。传统多人互动方案中,网络带宽较差的用户往往会影响所有参与者的体验。而动态码率策略虽然对发送端的带宽要求较高,但可以根据接收端的带宽状况,调整传输的数据量,向接收端推送合适的视频流。对网络质量好的用户,传输高清晰度的流;反之,则传输低清晰度的流。视频流的码率自适应技术主要包括:多码流切换(Simulcast)和可伸缩编码(SVC)。

实时音视频技术路径分析

多人实时互动方案:RTC技术为主,CDN技术为辅

多人音视频通话:通过接入RTC SDK,同一个频道/房间内的用户可以通过RTC私有协议,推流至实时音视频传输网络(RTN),并从RTC地址拉取订阅的音视频流,享受稳定流畅的1v1或多人实时音视频通话服务。

实时互动直播:互动直播增加了主播、连麦者、观众的角色概念,连麦者既可以是房间内的观众,也可以是其他房间的主播。在核心互动端,主播和连麦者通过RTC地址推送自己的音视频流,并拉取他人的音视频流。连麦内容会通过旁路系统在云端将混为一路流,并转码为传统直播协议供观众端使用CDN地址进行拉流观看。观众请求上麦成功后,将从CDN地址切换到RTC地址进行互动。

超低延时直播:对传统直播架构在协议和网络层面进行改造

超低延时直播是近年来新兴起的一类应用。如电商直播、赛事直播等场景,兼具高并发与低延时的特性,传统直播3-20s的时延难以满足其需求,但对实时互动的要求又不及视频会议等典型的实时音视频应用,无需将时延降低至400ms以下。为此,超低延时直播融合了传统直播与实时音视频的技术架构,通过取长补短的方式实现了介于二者之间的端到端时延。

尽管针对超低延时直播厂商尚无一套标准的技术路径,但大体可以归纳为拉流协议、网络架构和推流协议三个方面的改造,在实际应用过程中,厂商会平衡成本及性能指标等因素,在不同的协议和网络架构之间进行选择。

中国实时音视频行业应用概览

实时音视频商用实践从消费互联网向产业互联网逐渐渗透

以泛娱乐、在线教育为代表的消费互联网场景,具备实时音视频发展的良好应用基础和价值前景,是实时音视频商用实践的主力领域。伴随产业数字化转型的加速,协同办公作为全行业的通用型解决方案,已经成为后疫情时代企业的必备能力;实时音视频在金融、医疗等传统行业重点场景的应用效能也在逐渐扩大。虽然IoT行业众多场景的实时音视频应用基础尚未成熟,但是其在工业巡检、自动驾驶等领域具备广阔发展前景,是实时音视频行业的未来发展方向。

社交娱乐实时音视频需求及实践

实时音视频激活互动新玩法,多场景联动释放业务增长空间

公众社交娱乐需求的不断释放与满足,使行业内存量用户的竞争加剧,获客留客的成本攀升。产品同质化趋势下,互动体验升级与新潮互动模式挖掘的重要性愈加凸显。实时音视频技术与社交娱乐场景具有天然契合度,不仅可以直接提升现有产品的基础属性,还可以融合空间音频、VR、AR等技术,给予用户沉浸式的实时互动体验。此外,实时音视频技术还使得在线合唱、一起看直播等强实时场景成为可能,并有助于直播、社交、游戏类场景间的融合。融合过程中激发出的互动新玩法,有助于拉升用户活跃、留存、使用时长等业务数据,并拓展产品的付费场景,提升产品的营收能力。

教育行业实时音视频需求及实践

强调师生的实时互动,叠加丰富的教学工具提升教学质量

教育行业分为校外培训和校内的教育信息化两个部分,其中校外培训受到“双减”政策的影响,各机构纷纷转向素质教育、成人教育、职业培训等细分赛道,教育信息化迎来政策和需求的双重利好,利用以音视频为核心的手段促进教育公平、提升教学质量已是大势所趋。于教育行业而言,实时音视频的应用涉及1v1、小班课、互动大班课、双师课堂等多种场景,不同场景在延时、并发上的需求各异,厂商应针对具体的场景需求提供不同的解决方案以实现清晰流畅的音视频体验。此外,教育行业对白板互动、在线问答、课件演示等互动工具存在刚需,厂商需提供丰富的功能以帮助提升教学质量。

协同办公实时音视频需求及实践

以视频会议为核心向协同办公延伸,解决远程异地办公需求

实时音视频在协同办公场景中的应用主要体现在视频会议上。新冠疫情的出现推动了云视频会议在各行业领域的渗透,现如今,云视频会议已经成为混合办公模式下的重要抓手。不同会议场景下的环境空间、硬件设施、参会人员存在差异,可能出现的音画问题也各不相同,如小会议室内同时开麦会造成啸声严重,大会议室距离入会设备较远的人声难以听清,容易出现混响。厂商需能针对不同场景提供高清流畅的音视频会议体验,同时满足PC、智能手机、会议平板等多种终端的接入需要。在此基础上,可叠加包括会前准备、会中协作、会后管理在内的产品能力,辅助企业进行远程异地的协同办公。

金融行业实时音视频需求及实践

联动线上线下优势能力,实时音视频突破金融服务物理边界

新冠疫情加速了金融行业的“离柜化”,线下网点的经营成本愈显沉重;虽然,线上互联网模式更具备便捷性与盈利性,但在客情管理、业务支撑方面的能力有限。因此,金融机构亟需一个能够融合线上、线下服务优势的新渠道。依托实时音视频技术打造的远程服务场景,打破了金融服务的时空边界,可有效支撑网点业务的线上化;同时,坐席专业团队的业务引导、交叉营销、客情管理等服务,可给予客户有温度的数字服务体验。通过灵活调节远程坐席与线上、线下渠道的连接布放,可以较大程度提升金融机构的运转效能。

医疗行业实时音视频需求及实践

推动医疗服务下沉与资源分级协作,针对性解决就医难题

优质医疗资源分布不均、基层医疗资源利用不充分、问诊流程冗长复杂,始终是患者“看病难、看病烦”的根源问题。同时,由于专业属性较强、合规要求严格,医疗行业的协作壁垒较高,医疗体系内部也长期存在资源互动困难、远程协作低效等难题。实时音视频作为医疗行业数字化转型的重要能力,可以为慢性病、常见病和部分专病患者提供诊前咨询、诊中判断、诊后回访的全流程医疗服务,免去线下就医的诸多困扰。同时,实时音视频技术在远程会诊、远程协诊、远程影像方面的应用,不仅可以促进更加高效的医医协作模式,还可以推动医联体内医疗资源的分级协同与广泛下沉。

IoT行业实时音视频需求及实践

从消费级应用的实时通信向产业级应用的远程控制渗透

根据艾瑞咨询测算,预计到2023年中国物联网连接量将达到125亿个。随着万物互联的时代来临,实时音视频正作为终端设备的“眼睛”和“耳朵”加速向IoT行业渗透。IoT领域具有多样化、碎片化的特征,存在很多专为特定行业、特定场景所服务的设备。因此,实时音视频厂商不仅要同主流音视频芯片厂商合作,还需要支持客户侧对定制化硬件平台的对接需求。IoT行业的应用大体遵循从消费级向产业级渗透的路径,需求重点由实时通信向远程控制升级,对性能、功耗、包体等各方面的要求也不断提升。

标准化工作推动市场良性竞争

量化实时音视频服务质量,赛道准入门槛不断提升

实时音视频领域一直以来处于行业标准缺失的状态中,对于服务质量和用户体验是否达标、不同类型的产品或场景能够接受的数据指标等都没有统一的评判标准,在一定程度上阻碍了行业的健康发展。2022年5月,中国信通院启动了“音视频+”系列规范标准的编制工作,实时音视频作为其中的重要组成部分,针对其基础能力的相关标准已经初步成型。标准化工作的推进将引导实时音视频行业迈向更高的服务质量,亦会推动PaaS层厂商与垂直行业解决方案商之间的协作共赢。

以实时互动为基点向元宇宙进阶

连通虚拟与现实世界,沉浸式交互拓宽实时音视频想象空间

当前实时音视频在泛娱乐场景中的渗透正逐渐趋于饱和,随着音视频基础设施属性的显现,实时音视频也开始凭借“实时”的标签向更广泛的实时互动领域拓展,延伸其场景边界。音视频技术、传输技术的发展演进让实时音视频在实时性、沉浸式方面的表现不断提升,实时互动的价值将超越了最基本的交流通讯,通过叠加VR、AR及各类交互技术,成为连通虚拟世界与现实世界的桥梁。未来,实时音视频将以实时互动的能力为基点,深入到虚拟主播、虚拟会议等元宇宙应用中。