ffmpeg 视频编码及基本知识

2024-09-05 12:12

本文主要是介绍ffmpeg 视频编码及基本知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

理论

H264编码原理(简略)

1. 视频为什么需要进行编码压缩

降低视频数据大小,方便存储和传输

2. 为什么压缩的原始数据采用YUV格式

彩色图像的格式是 RGB 的,但RGB 三个颜色是有相关性的。
采用YUV格式,利用人对图像的感觉的生理特性,对于亮度信息比较敏感,而对于色度信息不太敏感,所以视频编码是将Y分量和UV分量分开来编码的,并且可以减少UV分量,比如我们之前说的YUV420P。y黑白分量 uv色度分量 即4个y对应一个uv为一组,大大符合了1。

3. 视频压缩原理

编码的目的是为了压缩,各种视频编码算法都是为了让视频体积变得更小,减少对存储空间和传输带宽的占用。编码的核心是去除冗余信息,通过以下几种冗余来达到压缩视频的目的:
1. 空间冗余:局部区域压缩 “区域动态 其他区域静态”
2. 时间冗余:帧之间的压缩
3. 视觉冗余:块之间的压缩
4. 编码冗余(信息熵冗余):较少bit 比如有20个1000 我可以用1表示 有10个2 用2表示。
4. I、P、B帧 GOP图像序列

略 详细参考下方链接

5.H264编码原理

对于每一帧图像,是划分为一个个块进行编码,就是我们说的宏块。
1. 宏块扫描  核心思想:数字越小越容易用更少的bit做压缩。
2. 帧内预测    核心思想:宏块相似率很高,直接cp一份块减去差值。又分水平和垂直预测,src-xp = dst  src = dst + xp(xp就是预测算法 src原始块 dst预测块)
3.帧间预测 与帧内相似
4.DCT 变换和量化 核心思想:不只是将像素值变小,而是希望能出现连续的 0 像素。 一句话就是宏块有差不多特性,往0靠拢,这是有损压缩。 比如 12 13 4 -> 0 1 0  4这个就丢失了,画质就抽象了。所以下列qp qstep对图像质量起到关键性作用。
QP 是量化参数,它控制编码过程中的量化强度。QP 值越高,量化的步长越大,编码后的视频质量越低,但文件大小也越小;相反,QP 值越低,量化的步长越小,编码后的视频质量越高,但文件大小也越大。
QStep 通常指的是量化步长,它与 QP 值相关,更具体地表示了量化过程中的缩放因子。

 

具体可看

H264分析-CSDN博客

h264视频编码原理总结

◼ 为了能够在最后熵编码的时候压缩率更高,对于送到熵编码(以行程编码为例)的“像素串”,包含的0越多,越能提高压缩率。为了达到这个目标:
◼ 先通过帧内预测或者帧间预测去除空间冗余和时间冗余,从而得到一个像素值相
比编码块小很多的残差块。
◼ 然后再通过 DCT 变换将低频和高频信息分离开来得到变换块然后再对变换块的系数做量化。
◼ 由于高频系数通常比较小,很容易量化为 0,同时人眼对高频信息不太敏感,这样就得到了一串含有很多个 0,大多数情况下是一串含有连续 0 的“像素串”,并且人的观感还不会太明显。这样,最后熵编码就能把图像压缩成比较小的数据,以此达到视频压缩的目的。
◼ 这即是视频编码的原理。

H.264 码率设置

什么是视频码率

视频码率是视频数据(包含视频⾊彩量、亮度量、像素量)每秒输出的位数。⼀般⽤的单位是kbps。

设置视频码率的必要性

在⽹络视频应⽤中,视频质量和⽹络带宽占⽤是相⽭盾的。通常情况下,视频流占⽤的带宽越⾼则视频 质量也越⾼,需要的⽹络带宽也越⼤,解决这⼀⽭盾的钥匙当然是视频编解码技术。评判⼀种视频编解 码技术的优劣,是⽐较在相同的带宽条件下,哪个视频质量更好;在相同的视频质量条件下,哪个占⽤ 的⽹络带宽更少(⽂件体积⼩)。

是不是视频码率越⾼,质量越好呢?

理论上是这样的。然⽽在我们⾁眼分辨的范围内,当码率⾼到⼀定 程度时,就没有什么差别了。所以码率设置有它的最优值,H.264(也叫AVC或X264)的⽂件中,视频 的建议码率如下:

ffmpeg 码率控制

CQP:Constant Quantization Parameter - 固定质量参数(恒定质量1-pass)

恒定QP是最简单的码率控制方式,把某个量化值QP作为目标,每帧图像都按照一个特定的QP来编码,每帧编码后的数据量大小是未知的。常用于算法研究阶段,算法的验证。

CBR:Constant BitRate - 固定比特率 是恒定(固定)比特率,指文件每秒钟的码率是固定不变的。

VBR:Variable BitRate - 动态比特率

单位时间内的码率是可变的,使用VBR编码时,系统将自动为内容的简单部分分配较少的比特,从而留 出足量的比特用于生成高质量的复杂部分。

ABR:Average Bitrate - 平均码率 平均比特率(平均比特率,CBR和VBR的折衷)

Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点 独创了这种编码模式。ABR也 被称为“Safe VBR”,它是在指定的平均Bitrate内,以每50帧(30帧约1 秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量。

总结

CBR的特点是码率平稳,固定码流控制可以减少网络抖动的影响,不大起大落,适合网络直播。 

VBR的特点是码率波动起伏较大,但总体省空间,主要用来存储。网络条件非常好的情况下也是可以用的。 

实际网络传输中所谓的 CBR 一般都是 ABR(平均比特率),即只要是单位时间内把码率控制在额定码率就可以了,因为编码输出本来就有缓冲可以起到平滑波动的作用;ABR 是最适合网络传输的方案;

H264编码控制 

ffmpeg中采用H264,H265标准编码时,可能需要设置profile、preset和tune。

1 选择⼀个CRF值

量化⽐例的范围为0~51,其中0为⽆损模式,23为缺省值,51可能是最差的。该数字越⼩,图像质量越 好。从主观上讲,18~28是⼀个合理的范围。18往往被认为从视觉上看是⽆损的,它的输出视频质量和输 ⼊视频⼀模⼀样或者说相差⽆⼏。但从技术的⻆度来讲,它依然是有损压缩。

若CRF值加6,输出码率⼤概减少⼀半;若CRF值减6,输出码率翻倍。通常是在保证可接受视频质量的前 提下选择⼀个最⼤的CRF值,如果输出视频质量很好,那就尝试⼀个更⼤的值,如果看起来很糟,那就尝 试⼀个⼩⼀点值。

2选择⼀个preset和tune

"编码速度"通常指的是将原始音视频数据转换成压缩格式(编码格式)的速度。这个过程包括两个主要方面:

  1. 压缩速度:这是编码速度的一部分,指的是音视频数据被压缩成特定编码格式(如 H.264、H.265、VP9 等)的速度。压缩速度越快,处理相同数据量所需的时间就越短。

  2. 编码效率:除了压缩速度,编码效率也是一个重要的考量因素。编码效率涉及到在保持视频质量的同时,尽可能减少输出文件的大小。有些编码器可能在压缩速度上表现不错,但输出的文件相对较大,或者在保持文件大小的同时牺牲了视频质量。

 preset预设是⼀系列参数的集合,这个集合能够在编码速度和压缩率之间做出⼀个权衡

⽬前所有的预设按照编码速度降序排列为:
ultrafast
superfast
veryfast
faster
fast
medium – default preset
slow
slower
veryslow
placebo - ignore this as it is not useful (see FAQ)
默认为medium级别。av_opt_set(codec_ctx->priv_data, "preset", "medium", 0);

 

tune主要配合视频类型和视觉优化的参数况。如果视频的内容符合其中一个可用的调整值又或者有其中需 要,则可以使用此选项,否则建议不使用(如tune grain是为高比特率的编码而设计的)。

当前的 tune包括:
film:电影类型,对视频的质量⾮常严格时使⽤该选项
animation:动画⽚,压缩的视频是动画⽚时使⽤该选项
grain:颗粒物很重,该选项适⽤于颗粒感很重的视频
stillimage:静态图像,该选项主要⽤于静⽌画⾯⽐较多的视频
psnr:提⾼psnr,该选项编码出来的视频psnr⽐较⾼
ssim:提⾼ssim,该选项编码出来的视频ssim⽐较⾼
fastdecode:快速解码,该选项有利于快速解码
zerolatency:零延迟,该选项主要⽤于视频直播av_opt_set(codec_ctx->priv_data, "tune","zerolatency",0); // 直播是才使用该设置

profile

H.264有四种画质级别,分别是baseline, extended, main, high:

所有的profile 包括:
1. baseline profile:基本画质。⽀持I/P 帧,只⽀持⽆交错(Progressive)和CAVLC;
2. extended profile:进阶画质。⽀持I/P/B/SP/SI 帧,只⽀持⽆交错(Progressive)和CAVLC;
3. main profile:主流画质。提供I/P/B 帧,⽀持⽆交错(Progressive)和交错(Interlaced),也⽀持CAVLC 和CABAC 的⽀持;
4. high profile:⾼级画质。在main Profile 的基础上增加了8x8内部预测、⾃定义量化、 ⽆损视频编码和更多的YUV 格式;

在相同配置情况下,High profile(HP)可以⽐Main profile(MP)节省10%的码流量,⽐MPEG-2MP节省60%的码流量,具有更好的编码性能。根据应⽤领域的不同:
baseline profile多应⽤于实时通信领域;
main profile多应⽤于流媒体领域;
high profile则多应⽤于⼴电和存储领域。

av_opt_set(codec_ctx->priv_data, "profile", "main", 0); // 默认是high

 使用场景总结

1.对于1-pass编码,可以使用CQP,ABR,CBR,CRF或无损编码(尽量避免使用ABR,ABR质量无法保证)。
2.如果对比特率较敏感(例如流媒体),最好的选择是设置码率上限的CRF(CRF + VBV)或CBR。 (OBS默认使用的是CBR模式)
3.对于2-pass以上次数的编码,ABR和CBR用于1-pass生成log文件,将ABR,VBR或CBR用作后续pass的编码。
4.x264中,只有ABR和CBR可用于生成1-pass的log文件。

Tips:
1.视频本地保存(保证质量)——使用CRF保证想要的质量
2.视频点播(确保视频不超过特定大小)——2-pass的最优CRF值(由于是点播,所以有时间调整得到最优CRF值)+VBV或者ABR+VBV限制比特数
3.直播流(要求保证质量+快速编码+带宽)——1-pass的CRF+VBV或者ABR+VBV限制比特数,或者在比特允许的情况下可以使用CBR
4.确保视频最终具有特定大小——2-pass ABR

ffmpeg 视频编码常用函数

几乎与音频编码类似 我们着重看一下视频编码专用api
1.计算指定像素格式、图像宽、图像⾼所需的内存⼤⼩
int av_image_get_buffer_size(enum AVPixelFormat pix_fmt, int width, int height, int align)
此函数的功能是按照指定的宽、⾼、像素格式来分配图像内存。2.int av_image_alloc(uint8_t *pointers[4], int linesizes[4], int w, int h, enum AVPixelFormat pix_fmt,
int align);
pointers[4]:保存图像通道的地址。如果是RGB,则前三个指针分别指向R,G,B的内存地址。
第四个指针保留不⽤ linesizes[4]:保存图像每个通道的内存对⻬的步⻓,即⼀⾏的对⻬内存的宽度,
此值⼤⼩等于图像宽度。
返回值:所申请的内存空间的总⼤⼩。如果是负值,表示申请失败。3.填充图像数据到一个或多个图像缓冲区中。这些缓冲区可以是帧缓冲区,用于存储视频帧的图像数据。
int av_image_fill_arrays(uint8_t *dst_data[4], int dst_linesize[4], const uint8_t *src, enum AVPixelFormat pix_fmt, int width, int height, int align);av_image_fill_arrays()中参数具体说明: 简单理解:填充目标 填充格式 数据源 3个图像规则 字节对齐
dst_data[4]: [out]对申请的内存格式化为三个通道后,分别保存其地址
dst_linesize[4]: [out]格式化的内存的步⻓(即内存对⻬后的宽度)
*src: [in]av_alloc()函数申请的内存地址。
pix_fmt: [in] 申请 src内存时的像素格式
width: [in]申请src内存时指定的宽度
height: [in]申请scr内存时指定的⾼度
align: [in]申请src内存时指定的对⻬字节数。

处理流程

参考学习

x264码率控制介绍、配置及应用 - 代码先锋网 (codeleading.com)

ffmpeg 码率控制(总结篇)_ffmpeg码率实时控制-CSDN博客 

这篇关于ffmpeg 视频编码及基本知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138932

相关文章

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室