MSU2021世界编码器大赛成绩公布,阿里自研编码器获六项第一

本文主要是介绍MSU2021世界编码器大赛成绩公布,阿里自研编码器获六项第一,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

37092accf81a23b7ae945d4df576dca6.gif

10月30日,一年一度的MSU世界编码器大赛全高清(FullHD)客观性能赛道成绩公布,官方正式报告显示,继去年阿里自研S265取得两项PSNR指标第一名,阿里自研的VVC编码器S266首次亮相,就一举获得离线(1fps)档9项评测指标中的6项第一,2项第二,1项第三。另外,在包含56项评测指标的企业版完整测试报告中,S266更是获得其中的40项第一,10项第二,6项第三,成为唯一一个离线(1fps)档所有指标都进入前三的编码器。

阿里巴巴音视频实验室负责人、淘系产品技术&平台生态业务负责人汤兴(平畴)表示,内容化正在驱动互联网进入新周期,音视频技术的重要性越来越高。此次阿里S266在MSU取得出色成绩,是淘系技术长期以来对音视频领域的持续投入和不断创新的阶段性成果。随着以淘宝直播、逛逛为代表的内容化业务的发展,内容场和电商场的双重复杂度不断叠加,未来不仅是音视频技术,淘系技术在多模态、3D XR、认知计算与知识图谱等技术领域的迭代长期都会处在加速状态。

6项指标第一

今年MSU世界编码器大赛云集了国内外14家参赛单位的22款编码器,包括华为、腾讯、爱奇艺、Google、Intel、MulticoreWare、HHI等知名科技企业或研究机构,可谓高手云集,竞争十分激烈。

MSU本次发布了全高清客观性能赛道的测试报告:

https://www.compression.ru/video/codec_comparison/2021/main_report.html

该报告给出了各个参赛编码器在多项质量评价指标下的压缩性能,这些指标包括实际业务场景中广泛采用的SSIM、PSNR、MS-SSIM、VMAF等客观质量评价指标。

最终,经过激烈地角逐,阿里巴巴继去年S265取得两个档次PSNR指标第一名成绩之后,今年自主研发的VVC编码器S266一共获得了离线(1fps)档9项评测指标中的6项第一、2项第二和1项第三,即:

6项指标第一

YUV (4:1:1)-VMAF NEG、YUV (6:1:1)-VMAF NEG、YUV (4:1:1)-PSNR (avg. log)、YUV (6:1:1)-PSNR (avg. log)、YUV (4:1:1)-PSNR (avg. MSE)、YUV (6:1:1)-PSNR (avg. MSE)

2项指标第二

YUV (4:1:1)-SSIM、YUV (6:1:1)-SSIM

1项指标第三

Y-VMAF

S266也因此成为唯一一个离线(1fps)档所有指标都进入前三的编码器。

先来看全高清客观性能离线(1fps)档赛道MSU官方成绩:

8d202dde87872615a95b4266c4183e68.png

  按YUV (4:1:1)-VMAF NEG和YUV (6:1:1)-VMAF NEG这两个指标排名:

第一名:阿里巴巴S266_v2
第二名:阿里巴巴S266_v1
第三名:华为HW266、腾讯Tencent266

40f73bd0c9abed4446eb09cda36c479c.png

448a6a9240a120730186ba035f1b4069.png

测试数据越小表示压缩率越高,成绩越好。

图中显示,在同等YUV (4:1:1)-PSNR (avg. log)画质下,S266比基准编码器x265节省了50.9%的文件大小;在同等YUV (6:1:1)-PSNR (avg. log)画质下,S266比基准编码器x265节省了45.9%的文件大小。

  按YUV (4:1:1)-PSNR (avg. MSE)指标排名:

第一名:阿里巴巴S266_v1

第二名:阿里巴巴S266_v2

第三名:华为HW266

f53529502224bedc92fd8992bd1a6e3c.png

图中测试数据越小表示压缩率越高,成绩越好。

图中显示,在同等YUV (4:1:1)-PSNR (avg. MSE)画质下,S266比基准编码器x265节省了44.4%的文件大小。

▐  按YUV (6:1:1)-PSNR (avg. MSE)指标排名:

第一名:阿里巴巴S266_v1

第二名:腾讯Tencent VAV1

第三名:腾讯Tencent266

2577105017b9b92765ce9816a6d72b9b.png

测试数据越小表示压缩率越高,成绩越好。

图中显示,在同等YUV (6:1:1)-PSNR (avg. MSE)画质下,S266比基准编码器x265节省了41.3%的文件大小。

MSU世界编码器大赛

MSU世界编码器大赛是指由莫斯科国立大学(Moscow State University)主办的面向全球各大公司、学术机构、开源社区和个人的编码器比赛,从2005年起每年举办一次,现已成为视频编解码领域影响力最大的顶级权威赛事,谷歌、Intel、Netflix等在视频编解码领域颇有技术积累的科技巨头都曾多次参加该项赛事,参赛编码器代表了行业发展的风向标。

MSU的图形与媒体实验室(Graphics & Media Lab)作为权威的第三方视频编码器评测机构,在编码器评测方面颇有年头,从H.264、H.265、VP9、AV1到最新的VVC,其评测报告已被全球广泛认可,有较高公信力,对推动全球编解码技术发展、促进编码器性能提升方面有标杆示范作用。

本届大赛共有22款编码器参赛(包括参照编码器在内),分别来自于14家单位或个人,涵盖了H.264、VP9、H.265、AV1、AVS3、H.266等多种视频编解码标准,这些标准在业界具有广泛的代表性。

f2b2cbbb3beeac0a54ea7c4280b88e45.png

为什么需要多种维度的评价指标?

和商用编码器在实际业务中进行质量评估时并不能只依赖一种质量指标一样,MSU世界编码器大赛也采用多种客观质量评价指标,其中,SSIM(含MS-SSIM)、PSNR、VMAF是在实际业务场景中被广泛采用的全参考客观质量评价指标,分别从结构相似性、均方误差、多个时空度量组合模拟主观质量这三个维度评价编码器输出的失真视频相对于原始视频的相似程度或保真程度。

PSNR指标使用最为普遍,历史也更为悠久,是基于对应像素点间的误差,即基于误差敏感的图像质量评价方法。PSNR在促进编解码标准发展进程中起到了至关重要的作用,目前仍是视频编解码器标准化事实上的行业标准。但是由于PSNR并未直接考虑到人眼视觉特性,因而在有些情况上会出现评价结果与人的主观感受不完全一致的情况。

SSIM指标从亮度、对比度和结构三个方面来估计失真图像的视觉质量,旨在比较原始视频和失真视频的结构信息,研究感知结构的损伤,而不是感知误差。但SSIM指标在评价噪声图像、模糊图像时也有一定局限性。MS-SSIM是在SSIM基础上的改进,衡量了多尺度的结构相似性。

VMAF作为近些年出现的评价指标,利用大量的主观数据作为训练集,通过机器学习的手段将不同评估维度的算法进行“融合”,旨在得到一个能准确反映主观意志的画质评价标准。VMAF经过了若干年的迭代和优化之后,最新的版本可以更好的克服一些之前发现的问题,在更大的程度上能够反映人眼主观感受,因此近几年在商用系统中逐渐开始得到更加广泛的应用。但人眼视觉系统是一个复杂系统,VMAF指标依赖于符合主观特性的融合算法,还要有大量有效的、符合实际评测环境的数据集,是一个需要长期投入,不断迭代的优化过程。

在实际操作中,客观评价的内容是物理参量,评价的手段是物理量测量度,所以客观评价能够做到严格准确,具有较高的科学性和客观性。此外,编码器的不同模块和算法优化对各项质量评价指标的敏感程度和表现差异也不尽相同。因此,根据实际业务场景,在编码器开发的不同阶段,采用多种客观评价方法相结合的形式,可以全面评估编码器优化效果,充分兼顾压缩视频的综合质量。

阿里自研VVC编码器,能在本届MSU大赛中获得包括PSNR、SSIM、MS-SSIM、VMAF等9项评测指标中的6项第一、2项第二、1项第三,成为唯一一个所有指标都进入前三的编码器,充分体现了S266编码器在各项指标下的均衡表现和综合实力。

展望及未来商用之路

通过MSU的权威认证,展现了S266强大的压缩效率,但要推动VVC标准的商用,路还很长。这是因为VVC作为HEVC的下一代编码标准,引入了诸多新的编码工具,这些工具一方面带来了压缩效率的提升,同时也对算力提出了更高要求。经测试,在一台内置Intel i7-8700k芯片的个人电脑上,用VVC参考模型VTM11.0压缩一段1080p视频,只能达到0.005帧每秒,而常见视频一般为30帧每秒,需要提速6000倍。

与此同时,压缩的视频要让消费者能看到,还需要一个解压的过程。经过近十年的普及,常见手机芯片已经能解码HEVC标准的视频,但VVC标准压缩的视频还不能支持。通过手机的CPU做软解压是一个方案,但解码速度同样缓慢。在一台华为P40手机上,用VVC参考模型VTM11.0解压一段1080p视频,只能达到 9 fps。

为了攻克这些技术难题,阿里巴巴淘系技术沿用在S265上的大量专利技术,对VVC标准工具集进行大量研究,合理选择编码工具的组合来拿到VVC高压缩效率的红利,并使用机器学习方法,快速进行块划分和编码模式决策,对RDO过程精简并引入跨帧并行和CTU并行,大幅提高多核CPU的执行速度,还使用汇编指令集加速向量计算、优化内存访问效率。经过大量优化,S266的编码器慢速档比VTM11.0提速大于200倍,在快速档上能达到实时编码。另一方面,为了尽可能提升编码器的压缩效率,S266引入了基于CU-tree的预分析流程,并将预分析与编码过程紧密结合,使用基于块的运动补偿时域滤波技术减少预测误差,并采用自适应GOP决策,场景切换检测,屏幕内容检测技术来提高场景适应性;在码率控制上,S266使用帧,行,块三级码控,结合场景检测和噪声检测,精准有效的分配每个bit到最恰当的地方。在解码速度上,淘系技术经过大量优化,于2021年4月向业界公布了手机端的VVC实时解码器,普通手机仅使用2核就可以解码720p视频,最新发布的手机甚至可支持4k 30fps实时解码。


阿里巴巴音视频实验室负责人、淘系产品技术&平台生态业务负责人汤兴(平畴)表示:“淘系技术长期以来对音视频领域的持续投入和不断创新,造就了今天S265、S266在MSU世界视频编码器大赛的好成绩,以及在淘宝直播、逛逛、点淘中超高清视频的表现。未来的8K、VR/MR、元宇宙等,也将随着视频编解码技术的创新而蓬勃发展。期望淘系编解码团队,从业务场景出发,以进益求精的态度,进一步追求效率高,速度快,延时低的编码技术,加速S266编码器的技术创新,加快VVC标准在内容化社区的商业落地。”

✿  拓展阅读 

1dddee6913b5e7785d2463fd347a4cdc.png

87da2fb1866577de3871c5f6568eefd2.png

作者|淘系技术

编辑|橙子君

出品|阿里巴巴新零售淘系技术

3aad05926aedd9db8bf942b9ff3797a4.png

3d6171a148fd4b864b9e2db3216289d2.png

这篇关于MSU2021世界编码器大赛成绩公布,阿里自研编码器获六项第一的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817636

相关文章

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

阿里云服务器ces

允许公网通过 HTTP、HTTPS 等服务访问实例 https://help.aliyun.com/document_detail/25475.html?spm=5176.2020520101.0.0.3ca96b0b3KGTPq#allowHttp

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

半年高达552亿元,锁定云第一,中国电信天翼云紧追不舍

【科技明说 | 科技热点关注】 刚才我注意到中国电信公布2024年中期业绩,报告期内,中国电信实现营业收入为人民币2660亿元,同比增长2.8%,其中服务收入为人民币2462亿元,同比增长4.3%;净利润为人民币218亿元,同比增长8.2%。 其中亮点,2024年上半年,天翼云保持快速增长,收入达到了552亿元,同比增长20.4%,占服务收入比升至22.4%,市场头部地位进一步巩固。 为

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。 UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。

Python-获取excel数据 - 成绩统计

Pandas库基础操作 pandas库是Python中非常受欢迎的数据分析库,提供了快速、灵活和富有表现力的数据结构,便于轻松地进行数据清洗和分析。因为它不是标准库,使用前确保环境已经安装了Pandas库。 pip install pandas 接下来,通过一个简单的例子来了解pandas的基本用法。假设有一个包含员工信息的电子表格文件名为“员工表.csv”,文本内容如下。 名字,年龄,

【Linux】萌新看过来!一篇文章带你走进Linux世界

🚀个人主页:奋斗的小羊 🚀所属专栏:Linux 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 前言💥1、初识Linux💥1.1 什么是操作系统?💥1.2 各种操作系统对比💥1.3 现代Linux应用💥1.4 Linux常用版本 💥2、Linux 和 Windows 目录结构对比💥2.1 文件系统组织方式💥2.2