H264之NALU结构详解

2023-12-10 12:12
文章标签 详解 结构 h264 nalu

本文主要是介绍H264之NALU结构详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  摘要:本文详细描述了AVC的NALU的码流结构,以及各个层面上NALU详细的构成。
  关键字:AVC,NALU

1 NALU简介

  NAL层即网络抽象层(Network Abstraction Layer),是为了方便在网络上传输的一种抽象层。一般网络上传输的数据包有大小限制,而AVC的帧大小远远大于网络传输的字节大小限制。因此要对AVC的数据流进行拆包,将一帧数据拆分为多个包传输。和NAL层相对是VAL层,即视频编码层(Video Coding Layer)

  NALU就是经过分组后的一个一个数据包。每个NALU由一个1字节的NALU头部和一个包含控制信息或编码视频数据的字节流组成。NALU头部包含了NALU的类型以及其重要性的信息。NALU的类型指示了NALU的用途或功能,可以用于识别不同类型的单元,例如参数集和用于参考的片段。用于参考的参数集和片段被认为是重要或高优先级的,因为它们的丢失可能会导致难以解码后续的编码片段。非参考片段被认为对解码器的影响较小,因为它们的丢失不会影响进一步的解码。这些信息可以选择性地用于在传输过程中对某些NALU进行优先级排序。
  每个NALU中的VCL数据即编码序列以一个或多个即时解码器刷新(IDR)访问单元开始,其中包含一个或多个IDR片段,每个IDR片段都是一个帧内编码的片段。接下来是默认的片段类型,即非IDR编码的片段,以及/或者数据分割片段。数据分割片段将编码视频数据的不同组件分别放在单独的NAL单元中,这在存在传输错误的情况下可能很有用。非VCL NAL单元包括参数集、补充增强信息参数,这些参数对解码和显示视频数据可能有用,但对于正确解码来说并非必需,以及定义编码部分之间边界的分隔符。

2 NALU码流结构

在这里插入图片描述

  一个完整的数据包包含多个NALU,不同的NALU该如何组织规范中并没有规定,因此实际实现比较广泛的有两种格式AnnexB和AVCC。

2.1 AnnexB

在这里插入图片描述

  AnnexB是一种比较常见的H264码流格式,FFmpeg解封装的H264码流就是这种格式。AnnexB的格式比较简单每个NALU单元之前通过分隔符0x00 00 00 01或者0x00 00 01区分不同的NALU单元。对于非VCL和VCL的单元是不区分的都是存储在NALU的Body中。
  由于NALU的Body中的数据是压缩数据可能出现start code,因此规定RBSP中的0x000000、0x000001、0x000002和0x000003是非法的。如果数据中包含类似的二进制序列需要插入一个“模拟预防”字节0x03来实现,使得0x000001变成0x00000301,解码时去除即可。

  VCL包含经过编码的数据,而非VCL包含一些元数据协助解码。

2.2 AVCC

在这里插入图片描述

  另一种常见的存储H.264流的方法是AVCC格式。在这种格式中,每个NALU之前都有它的长度(以大端格式表示)。这种方法更容易解析,但会失去附录B的字节对齐特性。长度可以使用1、2或4个不同的字节进行编码增加复杂性。该值存储在一个头部对象中,通常被称为“extradata”或“sequence header”。它的基本格式如下:

bits    
8   version ( always 0x01 )
8   avc profile ( sps[0][1] )
8   avc compatibility ( sps[0][2] )
8   avc level ( sps[0][3] )
6   reserved ( all bits on )
2   NALULengthSizeMinusOne
3   reserved ( all bits on )
5   number of SPS NALUs (usually 1)repeated once per SPS:16         SPS sizevariable   SPS NALU data8   number of PPS NALUs (usually 1)repeated once per PPS:16       PPS sizevariable PPS NALU data

2.3 AVCC和AnnexB优点对比

  两种不同格式的优点:
附录B(Annex B)格式:

  • 字节对齐特性:Annex B格式使用起始码(start code)作为NALU的分隔符,这使得解析和处理数据包相对容易,因为起始码可以用于准确定位NALU的边界。
  • 广泛支持:Annex B格式是H.264视频流的一种常见格式,得到了广泛的支持,并且在许多常见的容器格式(如MP4)中使用。
  • 适合网络流。
    AVCC格式:
  • 简化解析:AVCC格式在每个NALU之前包含了长度信息,这使得解析和处理数据包更加简单,因为可以直接根据长度信息来定位和提取NALU。
  • 灵活性:AVCC格式允许使用不同字节长度来编码NALU的长度,从而提供了更大的灵活性,可以适应不同大小的NALU。
  • 适合本地文件。

2.3 NALU

  一个完整的NALU由NALU Header和RBSP(Raw Byte Sequence Payloads)组成。
  NALU Header占位8Bit,其中三个字段分别为

  • Forbidden_bit(1bit,一定是0);
  • NAL_Reference_bit(2bit,优先级),如 00 的 NALU 解码器可以丢弃它而不影响图像的回放。0~3,取值越大,表示当前NALU越重要,需要优先受到保护。如果当前NALU是属于参考帧的片,或是序列参数集,或是图像参数集这些重要的单位时,本句法元素必需大于0;
  • NAL_UNIT_TYPE(5bit),标识了当前Unit的类型和优先级信息。
      下面是Unit的类型标识和具体对应的类型描述(一般码流的前两个NALU分别是SPS和PPS):
0      Unspecified                                                    non-VCL
1      Coded slice of a non-IDR picture                               VCL
2      Coded slice data partition A                                   VCL
3      Coded slice data partition B                                   VCL
4      Coded slice data partition C                                   VCL
5      Coded slice of an IDR picture                                  VCL
6      Supplemental enhancement information (SEI)                     non-VCL
7      Sequence parameter set                                         non-VCL
8      Picture parameter set                                          non-VCL
9      Access unit delimiter                                          non-VCL
10     End of sequence                                                non-VCL
11     End of stream                                                  non-VCL
12     Filler data                                                    non-VCL
13     Sequence parameter set extension                               non-VCL
14     Prefix NAL unit                                                non-VCL
15     Subset sequence parameter set                                  non-VCL
16     Depth parameter set                                            non-VCL
17..18 Reserved                                                       non-VCL
19     Coded slice of an auxiliary coded picture without partitioning non-VCL
20     Coded slice extension                                          non-VCL
21     Coded slice extension for depth view components                non-VCL
22..23 Reserved                                                       non-VCL
24..31 Unspecified                                                    non-VCL
  • SPS: 序列参数集,包含解码配置,比如profile level 分辨率和帧率等。
  • PPS:图像参数集,包含有关熵编码模式、分片组、运动预测和去块滤波器等信息。
  • IDR: 立即解码刷新单元,这种NALU包含一个完整的图像序列,不依赖其他NALU就可以独立解码和显示,即一种特殊的I帧。

2.3.1 Slice

  一个视频图像可编码成一个或更多个切片,每个切片包含整数个宏块(MB),即每个切片至少一个 MB,最多时每个切片包含整个图像的宏块。总之,一幅图像中每个切片的宏块数不一定固定。设切片的目的是为了限制误码的扩散和传输,应使编码切片相互间是独立的。某个切片的预测不能以其它切片中的宏块为参考图像,这样某一切片中的预测误差才不会传播到其它切片中去。
  切片由切片头和切片数据组成。切片头(slice header)传递了适用于切片中所有宏块(macroblock)的共同信息,例如切片类型(slice type),切片类型确定了允许使用哪些宏块类型,切片对应的帧编号,参考图像设置以及默认量化参数(QP)。切片头包含了以下信息:

  • 切片类型:切片类型确定了切片中可以使用的宏块类型,例如I帧、P帧或B帧。
  • 帧编号:切片头指示了切片所对应的帧的编号,用于正确解码和顺序播放视频帧。
  • 参考图像设置:切片头包含了参考图像的相关设置,用于解码过程中的运动估计和补偿。
  • 默认量化参数(QP):切片头中包含了默认的量化参数,用于控制视频质量和压缩率。
      切片头中的这些信息对于解码器正确解码视频数据非常重要。通过切片头,解码器可以了解切片中宏块的类型、参考图像的设置以及量化参数的默认值,从而进行正确的解码和重建视频帧。切片头在H.264(或AVC)视频编码中起着关键的作用,它提供了切片中宏块的共同信息,确保视频数据能够被正确解码和播放。
      切片数据部分由一系列组成切片的宏块(macroblock)组成。在许多编码序列中,包含没有数据的宏块,即跳过宏块(skip macroblock),是非常常见的情况。跳过宏块通过参数"mb skip run"来表示,它表示一系列跳过的宏块的数量,在CAVLC熵编码模式下使用;或者通过"mb skip flag"来表示,它表示单个跳过的宏块,在CABAC熵编码模式下使用。跳过宏块是指在编码过程中,某些宏块不包含有效的数据,可以被跳过以提高编码效率。在切片数据部分中,这些跳过宏块的存在是很常见的。在CAVLC熵编码模式下,通过"mb skip run"参数来表示一连串跳过的宏块的数量。而在CABAC熵编码模式下,通过"mb skip flag"参数来表示单个跳过的宏块。这些跳过宏块的存在可以减少编码数据量,提高压缩效率。在解码过程中,解码器会根据相应的参数来识别和处理跳过宏块,以正确恢复视频帧的内容。切片数据部分中的这些跳过宏块对于视频编码和解码过程至关重要,它们在提高编码效率和压缩率方面发挥着重要作用。

2.3.2 宏块

  宏块层包含了解码单个宏块所需的所有语法元素。在H.264(或AVC)中,宏块是视频编码的基本单元,表示视频帧内的一个矩形像素块。宏块层包含了解码和重建宏块所需的所有信息和语法元素。宏块层中的语法元素包括:

  • 宏块类型:指定宏块的类型,如帧内(I帧)、预测(P帧)或双向预测(B帧),表示用于编码宏块的预测模式。
  • 运动矢量:指定宏块相对于前一帧中参考位置的位移,描述宏块的运动信息。
  • 变换系数:表示经过离散余弦变换(DCT)和量化后的宏块变换系数。
  • 预测模式:指示用于编码宏块的预测模式,如帧内预测或帧间预测。
  • 残差数据:包含预测和量化后的残差信息,用于在解码过程中重建宏块。
      通过解码宏块层中的语法元素,解码器可以重建宏块,并为整个视频帧的重建做出贡献。宏块层在解码过程中起着关键作用,因为它包含了解码和重建单个宏块所需的所有必要信息。

3 参考文献

  • H.264媒体流AnnexB和AVCC格式分析 及 FFmpeg解析mp4的H.264码流方法
  • Possible Locations for Sequence/Picture Parameter Set(s) for H.264 Stream
  • what the advantage of h264 Annex-B VS AVCC
  • H264解析
  • H264: From NAL to RTP

这篇关于H264之NALU结构详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/477083

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

自定义类型:结构体(续)

目录 一. 结构体的内存对齐 1.1 为什么存在内存对齐? 1.2 修改默认对齐数 二. 结构体传参 三. 结构体实现位段 一. 结构体的内存对齐 在前面的文章里我们已经讲过一部分的内存对齐的知识,并举出了两个例子,我们再举出两个例子继续说明: struct S3{double a;int b;char c;};int mian(){printf("%zd\n",s

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor

LabVIEW FIFO详解

在LabVIEW的FPGA开发中,FIFO(先入先出队列)是常用的数据传输机制。通过配置FIFO的属性,工程师可以在FPGA和主机之间,或不同FPGA VIs之间进行高效的数据传输。根据具体需求,FIFO有多种类型与实现方式,包括目标范围内FIFO(Target-Scoped)、DMA FIFO以及点对点流(Peer-to-Peer)。 FIFO类型 **目标范围FIFO(Target-Sc

019、JOptionPane类的常用静态方法详解

目录 JOptionPane类的常用静态方法详解 1. showInputDialog()方法 1.1基本用法 1.2带有默认值的输入框 1.3带有选项的输入对话框 1.4自定义图标的输入对话框 2. showConfirmDialog()方法 2.1基本用法 2.2自定义按钮和图标 2.3带有自定义组件的确认对话框 3. showMessageDialog()方法 3.1

脏页的标记方式详解

脏页的标记方式 一、引言 在数据库系统中,脏页是指那些被修改过但还未写入磁盘的数据页。为了有效地管理这些脏页并确保数据的一致性,数据库需要对脏页进行标记。了解脏页的标记方式对于理解数据库的内部工作机制和优化性能至关重要。 二、脏页产生的过程 当数据库中的数据被修改时,这些修改首先会在内存中的缓冲池(Buffer Pool)中进行。例如,执行一条 UPDATE 语句修改了某一行数据,对应的缓