音视频技术的未来:全球技术专家的展望

发表时间: 2022-07-07 10:33


自COVID-19爆发以来,虽然打破了人们工作、生活的节奏,但也在一定程度上催化了音视频技术的加速发展。这种加速发展不止是技术的纵向迭代,也是向不同场景发起了一次横向触达。当许多在物理层面受到限制的活动,如:社交、购物、娱乐、工作等,我们都可以通过线上的方式来进行,甚至越来越依赖这种方式。当然在这背后少不了技术者们的支持。对此,我们做了一个回顾,无论是国内还是国外,看看技术人们在音视频技术这个垂直赛道上更看好哪些具体技术的发展吧。另外,在这些内容的基础上,我们延伸到了本次 8月5日开始的LiveVideoStackCon 2022 音视频技术大会 上海站,一起看看有哪些大佬和内容会出现吧。


策划 / Teresa


下文汇集了海内外的技术人们从音视频技术的不同方向出发,来聊一聊他们看好哪些技术的前景。


流媒体技术

“我们之前说过,未来也将重申:视频正在颠覆商业。医疗领域正在依赖于连接视频的医疗设备、远程手术能力和配备了AI监控的智能医院。无论是在家还是在医院,对医疗护理而言,流媒体技术都已变得至关重要。


消费领域,随着实体店的关门,数字购物平台正在蓬勃发展。那些继续吸引顾客的实体店使用虚拟试衣间等店内娱乐消费技术来吸引顾客。


然后是像谷歌这样的科技巨头,它们已经将视频融入商业战略的方方面面:从服务(Youtube和Google Meet)到流媒体产品(Chromebook、Pixel和Nest等)。即使是Facebook(现已更名为Meta)也已将全部战略转移到了AR和VR这样的视频技术上。


同时,流媒体技术为用户提供广泛的可访问性,将更多权力赋予给创作者。区块链、加密、Web3等正在驱动去中心化。接着,避开大公司的新型盈利模式将会发展起来。”


——摘自《2022 海外流媒体十大技术趋势》

“技术+行业场景”这个方面也是我们一直所关注的。因此,我们在LiveVideoStackCon 2022 上海站特别推出了「音视频+」专题, 从不同行业场景出发,看看音视频技术的渗透力有多强。

了解更多该专题详情请扫码或长按二维码




AI与视频编解码

LiveVideoStack: 您认为基于AI的编解码器将很快超越传统编码器吗?还是两种编码器将共存很长时间?


Leonardo Chiariglione:传统的数据处理技术仍然会大显身手,但在很多领域,它已经走到了发展的尽头。而人工智能,才刚刚开始。


几天前,我发表了一篇文章(参见


https://blog.chiariglione.org/the-governance-of-the-mpai-ecosystem/)。

文中,我写道:“如果一台AI机器通过仔细训练后,可以发现某些特定的编码模式比其他模式更通用,那么它将很可能会比人类按照概率论机制所推导的编码模式取得更好的压缩率。” AI可以像人类那样根据经验解释新事物,因此机器积累经验的能力必然会随着处理和存储能力的增加而增加。然而,不要指望AI视频编码将在短期内超越传统视频编码。技术虽然发展很快,但是对过去技术的投资如此巨大,新技术的部署必然需要长久的时间。


激动人心的未来就在眼前。”


——摘自《对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续》




LiveVideoStack: 对于音视频技术的未来发展,还可能会有哪些令人期待的创新?在AI与视频编码技术结合上,未来有可能会出现哪些突破?


张昊:我非常期待基于AI的图像视频编码技术的创新。目前基于传统视频编码框架提升压缩率已经越来越困难,我们期待一个新的框架。目前AI视频编码还达不到最新传统编码标准(比如VVC)的水平,但是这个方向最近不断有新的研究成果发布出来,相信性能提升会加快。要是未来AI编码成为业界广泛采用的方案,那编码器的优化可能会需要与以往不同的技术。当然,在完全的AI编码成为现实之前,可能会有一个中间状态,比如结合传统架构和AI模块的编码技术和标准。这要求编码工程师既要懂传统编码,也要了解AI的相关知识。


目前端对端的AI+视频编码,虽然成果不断涌现,但是短期内可能还很难大幅度超过VVC的性能。但基于传统编码框架,加入一些编码效率更高的AI模块(比如滤波、预测),是有可能在短期内提升压缩率的。因此我看好基于传统编码框架+AI这条思路的技术进展。”


——摘自《中南大学张昊:我非常期待基于AI的图像视频编码技术的创新》

无论是AI视频编码,还是AI+传统视频编码框架,其本质上还是希望在高效编码的同时获得高清的图像视频。在本次上海站大会的「视频编解码性能优化与实现」专题,将会从不同的编码方式入手,如:面向机器智能的数据编码、基于视频的高维视觉数据高效编码等,来解决不同视频应用场景所出现的问题。

了解更多该专题详情请扫码或长按二维码



音频

LiveVideoStack: 对于未来想从事音频工作的同学,您有哪些建议和意见?


王晶:相比计算机视觉、通信网络、人工智能等概念较大的发展方向,目前专门从事音频信号处理或者音频相关技术的研究人员并不太多,但实际的工作岗位需求还是挺大的,尤其是高水平研究人员相对欠缺。事实上,从事音频工作的人员由于对信号处理和计算机编程能力都需要兼顾,也很容易过渡到其他技术岗位。音频领域(广义上包括语音和音频处理)当前和计算机技术、通信网络、人工智能、虚拟现实甚至生物医学等结合都非常紧密,相比传统单纯从信号处理或计算机编程的角度来看,很多实际应用问题的解决更倾向于需要交叉学科基础。


对于未来想从事音频工作的同学们,尤其是想在理论结合实践上有技术突破,建议首先学习数字信号处理、信息论、计算机编程、通信网络、人工智能等基础知识,然后深入掌握音频信号处理的各类常用算法和典型应用场景,研究课题或者工作内容的选择可以针对实际应用场景的需求开展具体研究。目前网络上开源代码和学习材料非常多,尤其是基于AI的声音处理技术,建议同学们在系统学习基础知识的同时多加编程实践练习,以便更好地理解算法思路,至少应当独立完成一到两个案例的实现。进入研究生学习阶段的同学则需多关注领域内的顶级会议和刊物,参加一些学术或者行业会议与同行进行交流,善于发现研究中的问题,并利用所学知识进行分析和解决。”


——摘自《对话王晶:音频人才亟待培养,高水平研究人员尤其欠缺》

在拥有理论基础的前提下,实践就显得尤为重要。尤其是在面临不同场景时,同一种音频技术又将会起到不同的作用。在本次上海站大会「声临其境—音频沉浸体验」专题,将涵盖三种场景:影视、远程会议和3D在线互动场景。而在不同场景下又会用到哪些技术呢?等你来一同探索吧~


了解更多该专题详情请扫码或长按二维码



传输网络

“RTC技术领域有其自身的特点,关注用户侧感受和诉求是从事这方面技术人员很容易忽视的。例如:流媒体在用户侧的感受并不敏感,技术上HEVC/AV1比AVC提高多少倍压缩效率,用户侧感受到的可能是手机烫不烫手,耗不耗电。宣传固然重要,但技术不应该忽略用户感受去谈先进性。


技术迭代不是一个数字比武过程,不是谁的数字指标高就会成为主流技术的,技术迭代过程是一个趋同效应,能契合某一类大规模应用场景往往会成为主流或者标准,作为从业人员不应该死盯技术指标上,用更高的技术指标去打败行业先行者是非常困难的,所以在固有领域里面盲目的技术精进也是一种故步自封,后来者应该尽力找到技术更广阔的应用场景形成新趋势。


后疫情时代RTC成为内卷严重的领域,一方面终端能力没有升级,另一方面疫情期间带来的应用场景流量出现了消退的迹象,巨头横行,而新场景还没有出现。但高分辨率、实时虚拟现实等高码率应用刚刚萌芽,超大码率会让UDP协议给kernel带来的负担越来越大,高带宽与低延迟、大并发的矛盾将会在新的场景更加尖锐,新一代的RTC架构有可能会出现TCP/UDP孪生模式。”


——摘自《历经5代跨越25年的RTC架构演化史》




LiveVideoStack:QUIC/HTTP3越来越流行, 甚至有人提出让WebRTC通过QUIC来传输,您如何看待RTP基于QUIC传输?RTP OVER QUIC 是一个好主意吗?


Ron Frederick:QUIC是一个非常有趣的协议,同TCP相比,它有很多优势,尤其是传输实时数据的时候(QUIC可以使数据包按照任何顺序得到处理)。虽然HTTP/2增加了在单个TCP连接上多路复用多个流的能力,但TCP迫使数据始终要按顺序处理,这意味着一个多路复用流上的数据包丢失将阻止其他所有流中的数据处理。QUIC有解决这个问题的潜力,甚至可能会演变为支持不同流的不同重传策略,这对于音视频内容来说是非常有利的(因为在出现一定延迟后,到达的数据包将不再有用)。我非常期待看到这项工作的发展!”


——摘自《对话RTP作者Ron Frederick: 我非常期待QUIC的发展》


在传输网络的世界中,追求极低的延时成为技术者们的头等大事。尤其是在大通量媒体传输、实时会话业务、万人场景等,对此,在本次「多媒体传输网络优化」专题中都会讨论到。


了解更多该专题详情请扫码或长按二维码




视频内容生产

“AI在视频领域的技术发展,为视频内容的重建提供了新的技术手段。基于AI的超分辨率技术可以实现标清到高清(SD转HD)、或者高清到4K甚至8K的分辨率的提升,可以弥补大量的图像细节;通过基于AI的逆色调映射(Inverse Tone Mapping)技术和色彩增强技术,可以实现对比度、色彩饱和度等多个层面的提升。这些提升的细节,需要用HDR视频的高动态范围和宽色域来进行表达。NTIRE 2021首次举办了HDR视频图像生成技术的大赛。


我们根据典型的应用场景,可以将智能视频重制划分为智能画质提升和智能老片修复两个分类。其中智能老片修复可以极大地提升传统的人工修复效率,而超分和HDR则进一步提升弥补细节,调节亮度和饱和度,尽量提升到接近真4K的水平。”


——摘自《HDR技术趋势浅析》

更高清的视频内容生产端是为我们所关注的,其消费端也是我们关心的方面。在本次「视频内容生产与消费体验创新」专题中,根据不同的消费场景,如:直播赛事、APP、视频节目等,在对应的生产环节中又会遇到哪些问题呢?


了解更多该专题详情请扫码或长按二维码




大会日程




以上提到的相关音视频技术专题尽在本次LiveVideoStackCon 2022 音视频技术大会 上海站,于8月5-6日召开。届时,还会有更多议题为大家展现。还有更多话题等你来解锁,详情见大会专题页或点击阅读原文了解:
https://sh2022.livevideostack.cn/topics