音视频开发基础知识(1)—

本文主要是介绍音视频开发基础知识(1)——图像基本概念，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

像素

**像素是图像的基本单元，一个个像素就组成了图像。你可以认为像素就是图像中的一个点。**在下面这张图中，你可以看到一个个方块，这些方块就是像素。

在这里插入图片描述

分辨率

图像（或视频）的分辨率是指图像的大小或尺寸。我们一般用像素个数来表示图像的尺寸。比如说一张1920x1080的图像，前者1920指的是该图像的宽度方向上有1920个像素点，而后者1080指的是图像的高度方向上有1080个像素点。

视频行业常见的分辨率有QCIF (176x144)、CIF (352x288)、D1 (704x576或720x576),还有我们比较熟悉的360P (640x360)、720P (1280x720)、1080P (1920x1080)、4K (3840x2160)、8K (7680x4320)等。

在这里插入图片描述
1 .像素就只是一个帯有颜色的小块。
2.不能简单地认为分辨率数值越高的图像就越清晰。

原始图像的话，分辨率越高确实会越清晰，但是我们看到的图像往往是经过后期处理的，比如放大缩小，或者磨皮美颜。经过处理过后的图像，尤其是放大之后的图像，分辨率很高，但是它并没有很清晰。

因为放大的图像是通过"插值"处理得到的，而插值的像素是使用邻近像素经过插值算法计算得到的, 跟实际相机拍摄的像素是不一样的，相当于"脑补"出来的像素值。

位深

一般来说，我们看到的彩色图像中，都有三个通道，这三个通道就是R、G、B通道,（有的时候还会有Alpha值，代表透明度)
通常R、G、B各占8个位，我们称这种图像是8bit图像，而这个8bit就是位深,位深越大，我们能够表示的颜色值就越多,目前我们大多数情况下看到的图像以及视频还是8bit位深的。

Stride

Stride也可以称之为跨距，指的是图像存储时内存中每行像素所占用的空间。跨距为了能够快速读取一行像素，我们一般会对内存中的图像实现内存对齐，比如16字节对齐。

举个例子，我们现在有一张RGB图像，分辨率是1278x720。我们将它存储在内存当中，一行像素需要 1278x3 = 3834个字节，3834除以16无法整除。因此，没有16字节对齐。所以如果需要对齐的话，我们需要在3834个字节后面填充6个字节，也就是3840个字节做16字节对齐，这样这幅图像的Stride就是3840 了。如下图所示：
在这里插入图片描述
也就是说，每读取一行数据时候需要跳过这多余的6个字节

帧率

FPS（frame per second 每秒钟要多少帧画面）
帧率：影响画面流畅度，与画面流畅度成正比：
帧率越大，画面越流畅；
帧率越小，画面越有跳动感。

码率

编码器每秒编出的数据大小，单位是kbps，比如800kbps代表编码器每秒产生800kb（或100KB）的数据。

在这里插入图片描述

RGB

RGB中的值不一定是按R-G-B顺序排列的，也可能是G-B-R顺序
在这里插入图片描述

YUV

YUV 颜色编码采用的是明亮度和色度来指定像素的颜色。
其中，Y 表示明亮度（Luminance、Luma），而 U 和 V 表示色度（Chrominance、Chroma）。
YUV主要分为YUV 4:4:4,YUV 4:2:2,YUV 4:2:0几种常用类型。
在这里插入图片描述

在这里插入图片描述

1.YUV 4:4:4, 每一个Y对应一组UV。
2.YUV 4:2:2,每两个Y共用一组UV。
3.YUV 4:2:0,每四个Y共用一组UV。

1.YUV 4:4:4采样

1个像素存储示意图
在这里插入图片描述
举个例子：
假如图像像素为：[Y0 U0 V0]、[Y1 U1 V1]、[Y2 U2 V2]、[Y3 U3 V3]
那么采样的码流为：Y0 U0 V0 Y1 U1 V1 Y2 U2 V2 Y3 U3 V3
最后映射出的像素点依旧为 [Y0 U0 V0]、[Y1 U1 V1]、[Y2 U2 V2]、[Y3 U3 V3]

这种采样方式的图像和 RGB 颜色模型的图像大小是一样，并没有达到节省带宽的目的

2.YUV 4:2:2 采样

有4种类型
1）YU16 (或者称为I422、YUV422P)，Planar格式
在这里插入图片描述

2）YV16 (YUV422P)，Planar格式
在这里插入图片描述
3）NV16(YUV422SP),Packed格式

4）NV61(YUV422SP),Packed格式
在这里插入图片描述
举个例子：
假如图像像素为：[Y0 U0 V0]、[Y1 U1 V1]、[Y2 U2 V2]、[Y3 U3 V3]
那么采样的码流为：Y0 U0 Y1 V1 Y2 U2 Y3 V3
其中，每采样过一个像素点，都会采样其 Y 分量，而 U、V 分量就会间隔一个采集一个。
最后映射出的像素点为 [Y0 U0 V1]、[Y1 U0 V1]、[Y2 U2 V3]、[Y3 U2 V3]

一张 1280 * 720 大小的图片，在 YUV 4:2:2 采样时的大小为：

（1280 * 720 * 8 + 1280 * 720 * 0.5 * 8 * 2）/ 8 / 1024 / 1024 = 1.76 MB 。

3.YUV 4:2:0

1）YU12（I420，YUV420P），Planar格式
在这里插入图片描述
2）YV12（YUV420P），Planar格式

3）NV12（YUV420SP），Packed格式

4）NV21（YUV420SP），Packed格式

举个例子：
假设图像像素为：
[Y0 U0 V0]、[Y1 U1 V1]、 [Y2 U2 V2]、 [Y3 U3 V3]
[Y5 U5 V5]、[Y6 U6 V6]、 [Y7 U7 V7] 、[Y8 U8 V8]
那么采样的码流为：Y0 U0 Y1 Y2 U2 Y3 Y5 V5 Y6 Y7 V7 Y8
其中，每采样过一个像素点，都会采样其 Y 分量，而 U、V 分量就会间隔一行按照 2 : 1 进行采样。
最后映射出的像素点为：
[Y0 U0 V5]、[Y1 U0 V5]、[Y2 U2 V7]、[Y3 U2 V7]
[Y5 U0 V5]、[Y6 U0 V5]、[Y7 U2 V7]、[Y8 U2 V7]

一张 1280 * 720 大小的图片，在 YUV 4:2:0 采样时的大小为：

（1280 * 720 * 8 + 1280 * 720 * 0.25 * 8 * 2）/ 8 / 1024 / 1024 = 1.32 MB 。

YUV 存储格式

YUV 的存储格式，有两种：
planar 平面格式
指先连续存储所有像素点的 Y 分量，然后存储 U 分量，最后是 V 分量。
packed 打包模式
指每个像素点的 Y、U、V 分量是连续交替存储的。
在这里插入图片描述

RGB 到 YUV 的转换

对于图像显示器来说，它是通过 RGB 模型来显示图像的，而在传输图像数据时又是使用 YUV 模型，这是因为 YUV 模型可以节省带宽。因此就需要采集图像时将 RGB 模型转换到 YUV 模型，显示时再将 YUV 模型转换为 RGB 模型。
RGB 到 YUV 的转换，就是将图像所有像素点的 R、G、B 分量转换到 Y、U、V 分量。
有如下公式进行转换：
在这里插入图片描述
更多音视频项目Demo代码详见我的GitHub：https://github.com/king-ma1993