ICIP2020：VVC实时解码器实现

本文主要是介绍ICIP2020：VVC实时解码器实现，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文来自ICIP2020论文《TOWARDS A LIVE SOFTWARE DECODER IMPLEMENTATION FOR THE UPCOMING VERSATILE VIDEO CODING(VVC) CODEC》

引言

VVC参考软件VTM实现了VVC编码器和解码器，它的主要焦点是新技术的实验和一些粗略的复杂性分析。并且作为一个参考实现它的目标主要是正确性、完整性和可读性，不考虑用于商业和消费系统。基于这些原因VTM并没有很好的优化，仅实现了一些基本的SIMD算法，并且在解码端不支持任何并行操作。VTM解码复杂度是HM的两倍。本文提出针对VVC解码器的优化方法。

VVC复杂度

上图Fig.1是VVC解码器的概要图。码流首先通过CABAC熵解码器，解析出块划分信息、预测信息和残差数据。然后是反量化（iQ），接着是二次和初次反变换（iST，iT）。然后重建残差数据和预测数据相加，然后经过一系列环路滤波操作包括iLMCS，DBLF，SAO和ALF。复杂度增加来自新技术加入和预测技术复杂度增加（帧内、帧间）。

实验配置

本文实验都是在笔记本电脑上进行的，使用8核Intel Corei9 9980HK处理器，32G RAM和1TB SSD存储，操作系统是ubuntu18.04，编译器是GCC7。

测试序列包括5个高清序列（Class B）和6个超高清序列（Class A1和A2），在RA配置下10比特编码，QP包括29，31，33，35，37，39，41，编码器为VTM5.2。使用Intel VTune软件分析结果。

加速结果通过节省的时钟时间计算，

TS=100%*(T_ref - T_test) / T_ref

使用SIMD加速像素操作

SIMD（single instruction multiple data）允许同时在多条数据上执行单条指令。现在的x86处理器可以在128位宽（SSE42）、256位宽（AVX2）、512位宽（AVX512）上实现SIMD指令。本文SIMD操作是在SSE42和AVX2上实现（AVX512并没有获得CPU大范围支持）。

上图Fig.2是实现部分特殊工具获得的加速。可以看见实现SIMD并没有加速运动解析（Parsing）和运动信息生成（Mi-Der），这是因为它们本质是串行过程不依赖于像素操作，而是逻辑元数据处理（像CU等）。类似的，LMCS也没有提升太多，这是因为LMCS通过查找表实现像素映射，SIMD实现起来并不高效。去方块滤波（DBLF）加速也非常少，这是因为本文实现的DBLF的大部分时间都用在参数生成上而不是实际的像素操作（加速很高）。

解码过程中的运动补偿、帧间预测工具、反变换、SAO和ALF加速比较高。但是加速还是比一些state-of-art的方法小，这是因为统计中不仅包括像素操作，也包括可以与特定处理阶段相关联的第一个函数调用的时间，还包含与该阶段相关联的一些准备逻辑。

在SSE42上帧间预测阶段节省了大约70%的时间。对于实际的运动补偿插值滤波（IF），通过启用AVX2，可以节省超过30%的剩余时间。仿射预测是基于4 x 4样本块预测，难以有效地优化，但可以采用与非仿射预测相似的因子来加速。为了克服这个，设计了一个4x4的6抽头和4抽头IF滤波器。优化的实现不会将中间结果保存在内存中，而是直接对每个读取像素使用水平和垂直过滤。类似的方法开发了16x16的8抽头(亮度)和8x8的4抽头（色度）滤波器用来减少中间结果的缓存。DMVR操作会将大块划分为16x16的子块，这使得特定的块大小（16x16）对于优化的解码器至关重要。对于DMVR块尺寸，由于SIMD寄存器大小越大，可用空间就越大，所以只提供AVX2非缓冲实现。

变换阶段（包括反量化、一次和二次变换）仅对反量化和一次变换进行SIMD优化。后者是作为一个常规的整数矩阵乘法实现的。利用通常的系数稀疏性，除了最小的块之外，它优于所有DCT-II的快速实现，其优势通常适用于VVC中可用的所有变换类型。