VVC/H.266 VTM10.0 代码阅读记录 (1. nal_unit

本文主要是介绍VVC/H.266 VTM10.0 代码阅读记录 (1. nal_unit_type 与帧类型)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

从2019年12月后，由于先后两段实习，没有认真跟过最新的标准和代码，感觉落下挺多东西。
接下来的一段时间，没有了秋招和paper的压力，下定决心重新整理和学习一下视频编解码的东西，包括VVC、AVS3和X264，有时间再看一下AV1。
在此系列，记录一下VVC的学习心得以及VTM10.0的代码阅读记录（可能会比较乱，博客主要是当成草稿纸使用）。

在之前发的博客里面，总结过 NALU提取和 non-VCLU解码两部分代码和内容。

VVC/H.266代码阅读（VTM8.0）(一. NALU提取)
VVC/H.266代码阅读（VTM8.0）(二. non-VCLU解码)

但是，现在回顾博客，针对 nal_unit_type 和帧类型这块，并没有学习记录也没有理解透彻，现在根据 draft 记录一下这部分的学习内容。
在这里插入图片描述

↓

在这里插入图片描述

↓

在这里插入图片描述

nal_unit_type 指定了 NALU 的类型。应遵循以下规则：

① 对于一个 subpicture 的所有 VCL NAL，nal_unit_type 应该是相同的。
② PPS 里面有一个 pps_mixed_nalu_types_in_pic_flag。该值等于0时，指定引用PPS的每个图片有一个或多个VCL NAL单位，并且引用PPS的每个图片的VCL NAL单位具有相同的nal_unit_type值。该值等于1时，指定引用PPS的每个图片有一个以上的VCL NAL单元，并且VCL NAL单元不具有相同的nal_unit_type值。
③ 如果 pps_mixed_nalu_types_in_pic_flag 等于0, 一幅图像的所有 VCL NAL 单元的 nal_unit_type应当相同的。如果 pps_mixed_nalu_types_in_pic_flag 等于1： ① 图片最少有两个 subpictures。 ② 图片的 VCL NAL 单元应该有两个或更多不同的nal_unit_type 值。③ 图片中没有 nal_unit_type 等于 GDR_NUT 的 VCL NAL 单元。④ 当图片的一个 VCL NAL 单位有nal_unit_type 等于 nalUnitTypeA (IDR_W_RADL, IDR_N_LP或CRA_NUT），图片的其他 VCL NAL 单位 nal_unit_type 都等于 nalUnitTypeA 或 TRAIL_NUT。
④ IRAP 或 GDR AU 中的所有图片的 nal_unit_type 的值应该是相同的。

下表就是 nal_unit_type 对应的 NALU的类型。下面的叙述不区分 picture 和 subpicture，一律用帧/图像来统一描述。

在这里插入图片描述

0 - 3，7 - 10 对应的是VCLU，负责高效的视频内容表示。
12 - 25 对应的是non-VCLU，是一些参数集或者信息内容。
0 - 1 后置图像，2 - 3 前置图像，7 - 10 IRAP 帧内随机接入点图像。
0 Trail 是后置接入图像，解码顺序和显示顺序都在 IRAP 和 GDR 帧之后。Trail 图像可以参考相关联的 IRAP 和 GDR 图像以及他们的相关联的后置图像，不可以参考其前置图像或者相关联的非后置图像。

如下图的B33、B34、B35就是I28的后置图像，其解码顺序和显示顺序都在I28 (CRA图像是IRAP图像的一种) 之后。

1 STSA 是分布时域子层接入图像。在 STSA 图像编码时，STSA 图像能够从同一层的下一层向上切换到包含 STSA 图像的子层。STSA 图像保证 STSA图像自己、同一子层中跟随在此 STSA 之后图像（解码顺序）不参考同层子层超前 STSA 的图像。

① 如下图中的P2就是STSA图像。在P2后，可以从TS0上切换到TS1层，也就说可以保证 “在 STSA 图像编码时，STSA 图像能够从同一层的下一层向上切换到包含 STSA 图像的子层。” 但是，并不可以继续切换到TS2层，因为后面的P3需要参考P1，而P1在P2之前解码，可能是被丢弃。至于可以从TS0切换到TS1，是因为P2无需参考TS1的任何图像，只用参考TS0的图像，而且P2也不用参考在解码顺序中跟随在P2后面的任何TS1子层的图像。
② 此外，其实在P6后，允许TS0直接切换到TS1，乃至更高层TS2。这是因为按照后续参考逻辑来看，TS1乃至TS2层的后续图像都可以找到肯定可以解码的参考图像。在HEVC中，这种图像叫做 STA 图像（时域子层接入图像），但是VVC目前没看到有这个图像的定义。
③ STSA 图像是一种特殊的 Trail 图像。

2 RADL 是可解码随机接入前置图像。RADL 图像不需要参考任何解码顺序在 IRAP之前的图像。
3 RASL 是跳过随机接入前置图像。RASL 图像需要参考解码器中可能不存在的图像，所以解码器只能跳过这部分图像继续解码处理。

① 前置图像就是指解码顺序在 IRAP 之前，显示顺序在 IRAP 图像之后的图像。
② 如下图的B29和B31就是RADL图像，如果在 I28 (CRA) 随机接入，B29 和 B31 是在 I28 (CRA) 之后进行解码的，但是 B29只参考 I28，B31参考 I28 和 B29，都是可以正常解码的。
③ 如下图的B30就是RASLT图像，B30还需要参考P24，这可能不存在于解码器中，所以B30只能被跳过。

7 - 8 IDR 即时解码刷新图像，不使用帧间预测，可以是比特流中的首帧或后续帧。在解码顺序上，IDR帧是 CVS（coded video sequence）的首帧。IDR帧有两种类型，分别是 IDR_N_LP (8) 和 IDR_W_RADL (7) ，二者都不允许有 RASL 帧。而 IDR_N_LP 不能有前置帧，而 IDR_W_RADL 可以有前置的 RADL 帧。
9 CRA 纯随机接入图像。处于比特流 GOP的第一帧，而且引领开放式GOP，在解码过程中允许参考其他GOP中的图像数据。CRA图像是和相应前置图像有关联的图像。CRA图像的前置图像被允许参考CRA前面的已解码图像。
10 GDR 渐近解码刷新图像，是与IDR相关的一个概念，这是一种特别帧，每个GDR包含一个I-Slice，几个连续的GDR帧可以起到一个I帧相同的作用，但由于GDR帧的大小与P帧接近，因此可以起到平滑码率的作用，减少超大I帧对网络的冲击，减少传输延迟，同时也能起到阻隔错误的作用。GDR是通过P帧内包括I块组的方法来实现渐近刷新。
12 OPI 操作点信息，提供解码器的操作点信息。
13 DCI 解码能力信息。
后面的比较常规，不再赘述。