深耕视听领域的匠人，如何看多媒体技术未来？

本文主要是介绍深耕视听领域的匠人，如何看多媒体技术未来？ | 专访上海交大宋利，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

引言

20 世纪 80 年代，当多媒体技术诞生，一个全新的多媒体应用时代大幕徐徐开启。四十年间，一代代技术人不断投身多媒体事业，这其中有许多深耕该领域的匠心人，埋首研究并持续创新，引领和推动多媒体技术不断演进，蓬勃发展。

上海交通大学电子工程系教授、图像所副所长宋利老师便是这样一位一路见证多媒体技术起步和勃兴，深耕多媒体技术数十年，引领着高校教学和研究数字化前行的“匠心人”。在本期技术指针中，我们将跟随腾讯云 TVP、上海交通大学电子工程系教授图像所副所长宋利老师，透过学者视角，开启一段奇妙的多媒体技术发展之旅。

一、看起步发展，忆多媒体历程

早在二十多年前读博士时进入多媒体领域，宋利老师便扎根于此，一路以来，他见证着多媒体技术从 H.264 时代发展至如今的深度学习时代，也伴随技术的发展而成长。那么，接下来，我们将跟随宋利老师的脚步，回首与多媒体的不解之缘。

我从2005年博士毕业后留校，一直专注多媒体领域教到现在，从讲师到副教授、教授这样一步一步地做。遥想当年没有现在这么热闹，我印象中当年的同一届学生里有好多人都已经转行了，并没有留在多媒体领域。但是我在念博士的时候，因为热爱所以比较认定自己未来要在多媒体行业里工作，而且视频编码领域拥有一半技术一半艺术，一半可控一半不可控，这一点也非常吸引我持续投入。

其实，我做的第一个项目是图形学，主要是给虚拟人试穿衣服以模拟真人试衣，这是现在看起来都很超前的一个技术。在那之后我开始转到视频编码领域，中间也有跟踪过一段音频技术，然后便一路从 H.264 时代、H.265 时代、H.266 时代，现在到深度学习时代，算是见证了多媒体行业从起步到发展的环节。

在学者以外，我的另一个身份是老师。我个人是比较喜欢做老师的状态，教学相长，当能把一个东西讲给别人听时其实是又学习了一遍。同时每学期都是新同学，新面孔，每次都有新鲜感，要把他们领入门，希望他们成长起来，成长得更好更快，这种感觉其实还是挺难得和挺棒的，这可能也正是做老师的乐趣所在。我其实也很尊重学生的选择和个性，我一般会让我的研究生花些时间去了解自己喜欢什么，擅长什么，我希望学生做自己喜欢且擅长的事。作为高校教师，毋庸置疑还是要保证自己专业的精深，我在多媒体领域里面从事时间最长，大约超过一半的投入和产出、项目来源、学生、做的成果，还是在视频编解码领域，因此在这方面还是在持续发力的。我上课时跟学生也正好讲到 “T model”， “T” 这一横的意义是代表广博，知识要有广度，但还有一个很重要的是 “T” 这一竖的杠杆，即深度，深度是代表你的专业，只有足够深才能找到自己的立足点。

多媒体其实入门不难，但是要做到精深，是需要投入时间打磨的，需要有工匠精神。就好比一本教材，往往要出到第三版才会有比较优质的内容，对于产品，对于技术也是这样，我们得倾注热情，花时间去提升技艺，要不断地拓宽视野和学习范围。多媒体的特点就是它是一个不断变化的滑动窗口，下一代可能走的就不是这个技术体系，而正是学习能力和投入决定了你能走得多远。

在这个市场蓬勃发展的阶段，因为市场足够大，做得不好也能分一杯羹，但等到市场进入竞争激烈的状态时，那就只能靠打擂了。因此我和很多同学说，希望大家毕业以后到各个公司里面是做编码器设计的人，而不是简单拿编码器去改，我们要有能力重新写一个，争取坐上第一把交椅。

二、看深耕领域，剖多媒体演化

在多媒体发展史上，多媒体一词的概念，编解码的标准，它们都经历了哪些演变；在编码标准上，我们又是如何实现从跟随到领路的转变？从概念内涵到标准迭代，宋利老师将为我们一一娓娓道来：

多媒体领域的发展大约经历了 40 年的时间，1990年，以视频编码第一代标准 H.261 为代表发展到现在，如今我们日常使用的微信视频号，腾讯会议的背后都是多媒体技术在支撑，它经历了很大的演变。

第一个演变阶段是 TV，即电视阶段，从电视台把一个节目能传到我们的家里原来至少需要经过 300 多个设备和环节。第二阶段走向为OTT，或被称为流媒体，流媒体把原来电视时代的大堆专用设备都简化了，对我们多媒体人而言是一个网络的出现，虽然终端看到的东西没有变化，但其实背后已经发生了重大的结构演化。第三阶段则是手机终端化，如今我们仅仅使用手机就能够处理绝大部分的问题。未来再进一步向交互性更强的方向发展，就是如今大家热议的元宇宙，也是腾讯所说的全真互联网，我最近还取了一个新词叫“临境媒体”，它们比原来的多媒体的内涵又更加丰富了。

我在上课时也给同学们留了一个思考题，云游戏到底是游戏还是视频？我们打的是游戏，但支撑游戏的却是视频的技术，它其实是将渲染完的结果再以视频形式推到用户侧。低时延编解码、视频处理，它们的内涵比以前无疑扩大了许多。有时候语言限定了大家的想象力或限定了知识，我们至今还在用“多媒体”这个词，但“媒体”的内涵其实与二十年、十年前相比已经发生了很大的变化。

（一）视频编解码迭代下，H.267 路在何方

当前，视频编解码从某种程度上来说已经发展渐趋成熟，可以说只要存在视频的地方，那么这个视频都不会是原始视频，它背后一定有编码器，它也是属于基础架构里面不可或缺的环境。

通信里面的 1G、2G、3G，现在已经发展到 5G，类比到视频编解码其实也有代际的概念。鉴于视频编解码比较具有通用性，所以它有一个标准在后面推动。从第一代 H.261，到 H.262 即MPEG-2，再到 H.263 跟 MPEG-4 是中间过渡的，然后又发展到 H.264，H.264 是现在用得最多的，到 H.265 和最新标准 H.266，一路走来我们通常认为有四代编解器，每一代的发展也差不多历时 8 到 10 年，加起来一共 35 到 40 年的时间。这和移动通信一样，目前视频编码也差不多走到同样的位置，对应的 H.266 出来以后，大家认为视频编解码再往前走到 H.267 的话，是否还继续沿着这个标准和这条单一的演进路线走下去，这是一个有待思考和探索的问题。

（二）编码标准的“垄断”与“领路”

其实，现在的编码标准也分为几条线，早先我们更多还是参考国外的标准或者国际标准为主。这主要是因为我国国起步较晚，那时候很多技术都有时间顺序，很多 ICT 的技术就来自于欧美，我们只能从后向前追赶。国内标准是从大概二十年前产生，近几年开始声音比较大，是国家和电信领域里面认可的标准，现在的代表是 AVS。

值得一提的是，多媒体领域里面有一个特点是华人比较多且他们的能力很强。国内标准能够单独做起来，性能也与国际标准基本保持在同一级，甚至在某些方面还会做得更领先，也是得益于国内外许多华人的推动。特别是在国内，包括腾讯这些公司在这方面投入很大。从这个意义上来说，我们在基础上并不落后，甚至是处在领先地位。在明确赛道的情况下，中国人一般用十年时间可以完成别人要用两三代时间完成的事，目前阶段，我们更希望是我们去领路，让别人跟随中国的步伐。

三、看技术热点，寻多媒体应用

如今，多媒体应用走进了千家万户，在线视频会议办公，短视频娱乐都为我们的工作和生活带来了极大的便利。那么，一场在线视频会议的背后需要怎样的多重技术支撑；RTC 又有哪些充满想象空间的新兴应用场景？让我们跟随宋利老师一探究竟。

（一）多媒体技术推动在线视频会议的兴起

“原本我们预想到视频会议肯定会走到千家万户，但是没有预料到它的发展速度会是如此之快，用户规模如此庞大，而且成为我们日常的刚需。”宋利老师感慨道。

我们上的很多课程是专题性质的，一门课里会有很多专题，比较适合邀请不同专题下面的专家来分别授课，这样不同领域的专家能够为学生提供更为深入的解读，对于这类课程，在线上开一个腾讯视频会议，可以大大节省异地老师的上课时间，比线下教学的可操作性更强。

现在我们学校也是用腾讯会议企业版，腾讯的产品和服务态度都做得很好，得到了师生的认可。学校的课程会统一导入腾讯会议，每天的课程都会按时给老师发送提醒，所有选了课的学生，只要登录后就可以通过在线列表直接加入课程会议，这一点十分方便。

（二）在线视频会议背后的多重技术

视频会议系统是一个很典型且完整的现代多媒体通信系统。现在，我们普遍把它定义成 RTC 类的典型应用，它较流媒体而言在技术上的挑战更大，主要在于视频会议是双向互动的，而非流媒体的单向输出。在线视频会议的背后，其实有着多个技术步骤：

第一阶段是屏幕采集，从老师到学生这一侧是典型的屏幕采集，比如我们上课一般会用笔记本电脑，首先需要捕获屏幕，屏幕捕获包括图像和声音两部分，其中声音还包括屏幕里面的声音，比如播放的视频声音，以及人说话的声音，是按照 30 帧，每秒钟 30 次去抓取画面和声音。

第二阶段是图像处理，在屏幕捕获后便进入处理阶段，包括噪声处理、颜色修正、设备光亮统一、美颜滤镜等，这些我们都称之为图像处理，经过这一步，这就过了一个信号处理的滤波。

第三阶段是编码压缩，在这阶段就进入编码器，音频和视频都会被分开压缩。在压缩过程中，各种编码标准便会开始执行，压缩完毕后便会生成一个音频流和一个视频流。

第四阶段是复用和打包，鉴于音频流和视频流需要传输到网络，所以还有一个复用和打包的环节，将音频流和视频流按照时间排列好，同一个时间的打包到一起，盖一个戳，这便称为复用打包，同时，复用打包也是十分有讲究的，需要根据传输网络的要求，现在多媒体一般是在 IP 网络之上，所以会把它打成 IP 包。

第五阶段是网络分发，打包以后就可以过网络分发了，分发完毕后，无论学生在哪里，只要能够上网，便能从网络上把这个包拿下来。

第六阶段是逆向解包、解复用，剩下的工作就是把包裹拆开，音频和视频都拎出来，对照看看时间是否对准，再把它们按照时间点放到缓存区里面排列好。原来的视频如果是流媒体，我们叫播放器，播放器就会把音频、视频拿出来解码，把音频还原成音频，从二进制还原成信号，视频还原成图像，然后播放。其实 RTC 也一样，视频会议也一样，视频会议不叫播放而叫显示或呈现，也是一样把实时的包抓出来，音频、视频放到显存、声卡里，然后进行解码，到这一步又还原成一幅图像、一个视频。

最后，第七阶段是后处理，对比前面阶段的前处理，最后一步我们对应称之为后处理。因为我们再往前推是显示器，从数字到模拟还有一个适配的过程，所以后处理主要是对于屏幕适配来做一些调色和缩放处理。

腾讯会议作为在线视频会议的典型代表，从用户层面来看，它主要给我三种感受：首先是它简单好用，操作方便。其次是质量高，尤其体现在声音方面，虽然是视频会议，但我们往往更多会关注参会人的声音。腾讯会议的噪声抑制相比以前有了显著提升。最后无疑是稳定性高，依靠腾讯云，腾讯会议能够保障大规模用户的同时在线。

我们做学术的人往往强调的是上限，需要大家发表论文要讲创新性。但我认为做产品则需要稳住下限，毕竟是给千百万人使用的东西，需要花费更大力气来保障下限。把一个东西做出来可能不难，但是要把它做成一个用户规模很大、非常稳定运行的产品则极具挑战性。

（三）RTC 既是娱乐工具，也是生产力

实际上，RTC 不仅仅是单一技术，它还是一个系统。刚才我们提到的编解码，做流媒体用的分发类的编码器跟实时通信的编码器是不一样的要求，比如低时延的很多东西。这两年云游戏、直播等发展得很快，在这背后其实很多技术都跟 RTC 相关，直播里就有运用 RTC 的部分技术，比如腾讯的快直播。大众热议的元宇宙，其实它背后也离不开 RTC，此外，RTC 和工业结合起来布局远程监控、远程操作、远程医疗、远程救护、远程培训，这些应用也会是未来的新兴方向。

毋庸置疑，RTC +各种应用可以影响我们的娱乐、生活、生产、工作，例如，腾讯跟三一智矿公司合作的“自动驾驶+远程操控”的智慧矿山无人化方案便是一个典型的工业应用场景，主要是基于腾讯云实时音视频（TRTC）与 5G 网络融合技术，可以将视频传输时延大幅降低，为矿山作业人员提供更加稳定、流畅、可靠的远程操作体验。

腾讯云特别是视频部分在整个行业里是走在前列的。在视频这块，腾讯云走得最为深入，产品应用很多，且都细化到了解决方案上，比如 TRTC、快直播、流媒体等，针对不同场景都做了优化，这也说明腾讯云在音视频这块做得非常细致，而且里面的技术创新和快速迭代大家也是有目共睹。

从行业角度来说，我期待在现有基础上能有一定升格。我相信在腾讯云产品的迭代更新过程中，本身也会有很多独创的东西非常适合中国，期待腾讯云的创新能在未来升级成行业的标杆或标准。据我了解，腾讯的多媒体实验室也做了很多标准化的工作，我期待未来在这方面能有更多的突破。

四、看未来方向，探多媒体的下一站

随着元宇宙、ChatGPT 等新兴技术不断涌现，与之紧密相关的多媒体的下一站将走向何方，我们该如何把握它的数字化未来呢？追随着宋利老师的视线，我们一起眺望多媒体的未来前景。

其实，从消费者的角度来说，大家对于新技术的关注更多还是在于终端技术，目前手机屏幕占据了我们最多的使用时间，那么在未来，多媒体的下一块屏会在哪里？究竟是头盔，还是眼镜，又或是全息，目前各种探索层出不穷。下一块屏实际上也是下一代终端的原型，它将带动整个行业往前跳跃。

就整个基础链上而言，无论是 XR 还是 VR，我们能感觉到更多的驱动力其实还是来自于终端，终端对应的头端是成像采集、拍照技术、成像技术、声音技术，甚至包括虚拟制造。AR 代表更多的是生成，多媒体内容的生产、生成有很多新花样。以 AI 为代表的内容，元宇宙的虚实结合带来的东西，我觉得会把当前多媒体的很多东西颠覆掉，极大地拓宽多媒体的维度。

例如在过去我们的多媒体其实都是把内容记录下来，尽可能保证真实感。但是现在加入元宇宙、AI，便可以创造出多个虚拟形象，用户还可以和虚拟形象进行互动，即虚实融合、虚实相生，这里有着很大的想象空间。

业界的领袖，包括腾讯提及的全真互联网概念，国外的元宇宙概念，其实都已经给我们的发展指明了方向，这当中的路径可能有快有慢，但方向我个人还是十分认同，它最终的目的就是希望我们能达到更高的体验。

在一个大周期内部是小模块在迭代，到达某一个点后，即是随着破坏性技术的出现，大周期将会突然产生一个大的跳跃，叫做“升维”，会“咔嚓”带动整体往前走一步又再进入循环，往往技术进步就是这样，但它常常是不可预料，突然出现的。背后科研人员也好，行业也好，国家也好，其实我们都没有停下追逐的步伐。