关于直播视频:你可能不知道的事——专访淘系技术研究员陈颖

2024-03-17 03:38

本文主要是介绍关于直播视频:你可能不知道的事——专访淘系技术研究员陈颖,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

陈老师好,请您简单介绍一下自己,并和我们说说您的近况吧。

我从早期的职业生涯开始就一直专注于多媒体领域,之后在2009年加入美国高通。在后来9年多的岁月中,一直在美国的圣地亚哥埋头技术研发,帮助高通成为多媒体,尤其是视频编码算法和标准化方面成为世界领先的公司。后期我也从事人工智能的工作,在移动端上研发计算机视觉算法,帮助公司芯片开辟在手机芯片之外的IOT新赛道。可以说从2000年进入北京大学的相关实验室之后,一直在从事图像、视觉、视频等方面的研究和开发工作。目前在阿里巴巴帮助淘系建立更加完备的音视频团队,并且能在音视频技术领域做到业界前沿水平,更好地赋能淘系内容业务,包括淘宝直播,逛逛等。

可能是由于职业的原因,我个人闲暇之余喜欢刷视频,长视频,短视频,包括有时候也会刷刷点淘,甚至逛逛。同时我每周都会争取有一次锻炼的机会,具体是足球。

左中括号

学术研究&工业界产品

左中括号

您曾经在图像、视频和视觉领域发表过60+学术论文,相比目前您所从事的音视频算法技术工作来说,您如何看待学术研究与工业界产品化之间的关系?

刷点淘,甚至逛逛。同时我每周都会争取有一次锻炼的机会,具体是足球。

学术论文是技术创新的一种表现形式。我确实发表了一定数量的论文,单就论文数量这点还是难以和这个领域专门从事学术研究的优秀教授相媲美。然而,一个比较显著的特点是这些论文其实很多都是和我日常进行的系统化的产品研发工作强相关的,相当一部分是为了解决这些领域在工业界的具体应用问题。

因此我发表的这些论文背后是我所贡献的几百项的美国发明专利(只计算已授权的)以及几百项的视频标准技术提案。其中不少都是音视频领域的核心技术(比如SEP,标准核心专利),有些技术(比如H.265/HEVC中的标准编解码技术)几乎被当前的每一台智能手机所使用(也就是每年超过10亿的新的手机设备)。

从这些在业界产生较大影响力的创新技术提炼的论文,有些是受邀在顶级期刊发表的,总结业界的前沿进展,有一定的影响力。当然,也有另外相当大的一部分技术虽然有一定的创新性,但并未被大规模商用。

由此可见学术研究和工业界的产品化应用之间是可以相通的,只是前者更加关注创新突破,有很大概率没法转换成应用;而后者更多的是用技术手段解决业务问题,不一定需要用创新技术。产品应用中相当一部分是工程技术,对业务也有很大的价值。

然而,创新的技术做好之后可以长期帮助业务建立壁垒。另外我认为业务场景和技术创新(学术创新是其一种表现形式)本身是不可分割的。一个重视技术的国家,一个追求技术的负责任的公司在掌握业务场景的同时,应该抓住机会将场景的优势转换为技术的优势,而不仅仅是把人类已有的技术用好,忽视技术创新的机会。

左中括号

视频编解码&直播视频

左中括号

在研究视频编解码、标准迭代的过程中,有什么令您印象深刻/有趣的事情吗?

我觉得LiveVideoStack创造了一个很好的面对音视频从业者的社区。相关的读者多少听说过视频编码标准。不过近几年大家听到的更多的可能是标准发布之后很多晒成果的PR,不一定了解里面的过程。关于视频标准制定的工作我也有十多年的经验,里面有很多或辛酸或有趣的故事。

一个技术标准的形成是一个点滴技术积沙成塔的过程。这里至少包括有线下in-house研发和线上技术提案审核两个过程。在研发过程中,包括我在内的技术人员往往会因为两三个月开发出一个编码工具能够提升1%左右的编码效率而大受鼓舞,因为他们由此获得了加入积沙成塔的标准技术竞争过程的入场券,也就是线上标准会议中的提案审核。一项技术无论大小都要经过严苛的全方面评估才可能被接收成为标准的组成部分。而一次标准会议在一周左右的时间,需要审核的提案很多。标准编号数也从JVT(对应H.264)时代的三位记数发展到了JCT(对应H.265)时代的四位记数。

印象深刻的是为了完成对这些提案的审核,经常几十个公司的上百位专家要一起开会讨论到凌晨两三点之后。而H.264, H.265等这些标准就是我们这些参与标准技术贡献的工程师的智慧和努力所凝聚成的可供业界参照的灯塔,指导着直播、短视频、视频通话和视频会议等一系列视频应用的健康繁荣发展。当然能够把视频标准实现、应用好也是非常有技术含量且需要甚至比标准技术本身更多的投入的。

在视频编解码方面,淘宝直播所采用的S265和x265两者之间的区别、以及各自的优势是什么;S265和x265分别适用于什么样的场景?

H.265/HEVC与H.264/AVC一样是国际标准组织(ISO/IEC与ITU-T联合)制定的视频编码标准。

H.265/HEVC相比于H.264/AVC来说是下一代的视频编码标准,main profile定稿已经有八年了。大家可能知道开源的x265,它是符合H.265编码标准的开源编码器,有着灵活的编码档位配置,支持多种码率控制模型。而淘系主导自研了阿里的H.265编码器S265。站在巨人的肩膀上,S265相比于x265有一定的优势。

首先是编码效率更高,根据MSU2020比赛测试报告,S265 online档相比x265 medium 档次在相同速度下在SSIM、 VMAF以及 PSNR这三个质量评价指标方面分别获得20%、22.6%和37.8%的BD-rate收益(即同质量前提下,平均的码率节省),充分发挥了HEVC标准的潜力,更好地体现和H.264的代差。

其次,为了满足淘宝直播这样的大流量、高并发的实时应用的需求,我们做了较多的复杂度优化,提升编码速度。在快速模式下,S265相比x265 main档可提升3-4倍的速度,且依然保持一定的编码效率提升。同时,即便在慢速模式下,S265相比x265 ripping档次亦可提升10倍以上的编码速度,且编码效率不变。

再次,我们加入了一定的场景化感知能力,适配直播,点播,会议等全场景需求。比如针对RTC网络和大促流量调节的秒级码率控制,针对屏幕内容的预处理和Screen Content Coding(SCC)编码,针对会议和直播的低延时编码优化,针对商品和人脸的ROI编码以及基于场景分类的编码参数控制等。

左中括号

直播场景中的虚拟人物

左中括号

在虚拟主播大火的今天,洛天依、初音未来等也曾入驻淘宝,虚拟人物的直播需要哪些关键技术作支撑?手淘保证真人主播与虚拟人物之间流畅互动的难点是什么?淘系技术正在构建什么样的解决方案?

在商业直播场景中的虚拟人物,比如洛天依、初音未来、甚至虚拟明星、IP直播等虚拟主播背后都有不少的技术挑战,包含一系列的关键技术,比如动作、人脸捕捉,3D重建,SLAM,实时渲染,自然语言处理,TTS等。

和其它AR/VR/MR应用一样,真人主播与虚拟人物之间的流畅互动都需要极低延时的实时处理,在10毫秒级别里处理生成每帧所需的包括动作、人脸捕捉,渲染的任务,这是一个难点。其次高精度的动作捕捉和渲染也是保证体验所必须的。在智能化的语音互动方面,针对直播带货,相关的话术也需要通过对海量的电商多媒体数据、文本数据、结构化数据的挖掘处理,形成关于商品、场景的知识体系。另外一个难点是增加虚拟人物动作表情的真实感。这需要高度真实地还原材质、光照、物理运动、骨骼/肌肉运动。在微表情,口型方面也需要和虚拟主播的语言做好配合。

目前虚拟主播开播的成本非常高,需要专业的设备和专业的团队来完成,高昂的成本对于商家来说是很难承受的,也就无法利用这些新的技术去提升直播效果和经营水平。淘系现在致力于利用商家经济上可承受的方案普惠虚拟主播服务,支持采用普通的单目手机或PC做日常开播,追求让中小商家的开播成本降到最低。这方面目前我们有了一定的进展,但依然在努力。

左中括号

购物链路 & 直播同步

左中括号

在叠加了电商的“购物链路”和直播的“直播同步”的双重复杂性的情况下,淘系技术如何保证高清晰度、低延时以及购物秒杀与直播内容的同步?在重点投入哪些技术领域?

在电商直播带货场,主播推送商品,观众在线抢购商品是常态。我们可以将整个过程做到秒内延时,并且保证商品推送的消息同时到达、主播音画同步,从而保障身处不同地域的消费者都能获得平滑的观看体验、均等的抢购机会。为此我们打磨了一套直播消息系统,承担观众在线状态识别、评论、互动营销等功能。这套消息系统采用推拉结合的方式,并且用CDN作为兜底。对于大规模的消息,也采用了热点自适应打散,消息数据分片聚合、基于消息优先级的分发机制设计等一系列方法。对于一些特殊场景,消息信息也可以通过SEI融入到视频码流,实现完全的同步,提供极致的用户体验。

在更基础的高清晰视频画质和低延时体验方面,我们也在视频编码和传输技术上做出了努力。首先通过自研的S265编码器,提升编码效率,在降低CDN成本的同时,由于视频带宽需求的降低,卡顿率也相应减少。

另外,通过自研的全球实时传输网络(Global Real-time Transport Network: GRTN),淘宝直播实现了超低延时直播能力。传统直播基于HLS、DASH、FLV、RTMP等协议,延时方面有一定的历史局限。淘宝直播使用全链路RTC传输,并改造CDN结构,由中心组网改造为去中心组网,将端到端延时降低到1秒以内。RTC中传统的QoS策略得到了充分应用的同时,一些基础环节,比如拥塞控制方面我们也做了基于参数自学习的带宽预测算法,使得RTT和卡顿率都能显著降低。在业务上,这些画质、延时、卡顿指标方面的提升最终对淘宝直播的GMV有正向促进作用,这点得到了我们严格的A/B测试验证。在工程上,我们对卡顿和延时等指标有很好的实时追踪机制,确保我们及时的发现业务中的问题,并迅速迭代我们的技术予以解决。

左中括号

优势 & 规划

左中括号

淘宝直播在行业中与其他厂商直播带货相比,优势是什么?

2016年被称为直播元年,基础技术逐渐成熟,引出千播大战。而淘宝直播于2015年创立,平台的商家通过直播内容的垂直化经营缔造了一个又一个商业的数字高峰。现在,淘宝直播俨然成为商家在内容营销媒体上的第一选择。

面向直播行业而言,淘宝直播依托于手淘生态,所以淘宝直播在消费者和商家两端都保证了全链路优质的体验,既帮助商家降低经营成本、提高经营效率,又为消费者提供更好的导购、交易和物流履约体验。

直播本质上是交易和导购两种行为在秒杀级别上的结合,因此淘宝直播面临的是淘宝直播系统和包括导购、交易的淘宝电商体系两个高峰的叠加。原来的导购场景是不同的人会在不同的时间浏览不同的页面,那么整个服务器的压力是可以均摊的;而直播相当于把所有压力都集中到了同一点上。

这种复杂度的叠加,结合双十一等高峰流量场的承压,帮助淘宝直播积累了丰富的实践经验,也在不断挑战淘宝直播技术的水平,这是淘宝直播在技术迭代与创新上最大的优势。我们也将这些技术通过云化输出的方式,为企业客户和商家提供服务,比如在云上构建GRTN视频传输系统提供服务。

最后,我们有一批有技术理想的工程师,力求在音视频这个领域做最先进且和业务最适配的技术。

我们也了解到,目前淘宝正向内容化升级中,视频类内容越来越被大家所接受,关于未来直播/内容视频的技术架构发展和演进,您是如何理解的,以及淘系是如何规划的?

未来直播和视频内容方面,我们将在传输、视频、音频、音乐等方面发力,并且更加关注智能化和互动,持续升级我们淘系内容场景里面和音视频相关的用户体验。

首先我们将持续加强在传输方面的建设。从淘宝直播的初创期开始,在日常营销互动能力的完善之外,我们将RTMP+Http-FLV的协议升级至全链路的RTC,在延时的优化取得显著提升,且在抗弱网方面奠定了一定的技术优势。未来我们将打造更低成本的基于RTC的低延时P2P传输方案。

其次,视频的清晰度和带宽方面我们认为将有持续的提升空间。除了视频编码器之外,我们将重点追求整个全视频链路的端到端的优化,尤其是针对淘宝直播,逛逛里UGC水平的视频。本来,视频编码过程中的失真最小化只是整个端到端优化质量优化问题的一环。直播间光照环境,ISP成像,后处理等问题将和视频编码问题一起被联合优化,达到最优的质量、带宽和算力的平衡。围绕UGC的无参视频质量评价体系也将在其中发挥重要作用。

再次,在实时语音技术方面,我们会重点关注直播连麦基础音质体验,目标是任意设备、任何场景都能输出高品质的声音。通过结合传统的信号处理与AI的方法,解决音频3A、弱网音质、音频检测、音效美声、音质评价、音质监控等语音信号全链路涉及的技术问题。在直播音频主链路外,我们还会加强音频互动和安全能力方面的建设,助力直播业务实现诸如主播声音命令控制、声纹认证、粉丝声音游戏的功能。

此外,在音乐理解方面,我们将会覆盖对音乐的风格、情绪、旋律、节奏、和声等音乐特征,以及音乐与文字、图片、视频等关系的跨模态特征的全方位的理解。让每一首音乐都具有完整意义的内容标识和内容特征,可以进行跨模态的检索,实现精准的(逛逛业务中的)视频配乐、视频音乐识别等业务需求。我们也在探索音乐生成算法,以音乐特征或其他模态特征为输入,生成出符合人主观审美的音乐符号和音频,以丰富音乐多样性和音乐版权可用性。

最后,我们期望能在3D直播间、虚拟主播、智能导播,6DoF等方面加大投入,探索在主播的运营效率和交互体验上的新突破。

对于本次 LiveVideoStackCon 2021 上海站的分享,您会带来哪些令人期待的具体内容呢?以及您最期待哪个议题的分享(https://sh2021.livevideostack.cn/topics),为什么?

我将组织一个题为《迈向视频内容时代的淘系技术》的专场,和我的同事一起分享淘系在视频编解码、视频传输、视频理解等方面的一些技术进展,并且和大家探讨前沿的,我们也在大力投入的技术方向。

这次上海站的议题都不错。我会关注杨海涛博士组织的这个议题,“编解码的新挑战与新机会”。视频编解码确实是视频内容技术里面很重要的一环,依然有不少的前沿研究和工业落地的问题需要技术人员的不懈努力。

✿  拓展阅读

编辑|橙子君

出品|阿里巴巴新零售淘系技术

这篇关于关于直播视频:你可能不知道的事——专访淘系技术研究员陈颖的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817682

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.

速盾:直播 cdn 服务器带宽?

在当今数字化时代,直播已经成为了一种非常流行的娱乐和商业活动形式。为了确保直播的流畅性和高质量,直播平台通常会使用 CDN(Content Delivery Network,内容分发网络)服务器来分发直播流。而 CDN 服务器的带宽则是影响直播质量的一个重要因素。下面我们就来探讨一下速盾视角下的直播 CDN 服务器带宽问题。 一、直播对带宽的需求 高清视频流 直播通常需要传输高清视频

Spring的设计⽬标——《Spring技术内幕》

读《Spring技术内幕》第二版,计文柯著。 如果我们要简要地描述Spring的设计⽬标,可以这么说,Spring为开发者提供的是⼀个⼀站式的轻量级应⽤开发框架(平台)。 作为平台,Spring抽象了我们在 许多应⽤开发中遇到的共性问题;同时,作为⼀个轻量级的应⽤开发框架,Spring和传统的J2EE开发相⽐,有其⾃⾝的特点。 通过这些⾃⾝的特点,Spring充分体现了它的设计理念:在