FFMPEG下利用Intel VPP_QSV插件实现基于GPU的图像缩放和色彩空间转换 (一) - 命令行模式

本文主要是介绍FFMPEG下利用Intel VPP_QSV插件实现基于GPU的图像缩放和色彩空间转换 (一) - 命令行模式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近做图像预处理的工作有点多。这里记录一下最近做OpenVINO推理的端到端优化时对FFMPEG做图像预处理的一点心得。

 

这几天碰到的问题是在准备给mobilenet-ssd神经网络推理前需要对视频文件做解码,然后缩放到需要的分辨率再转成RGB格式的数据,这样才能丢进网络里做推理。这个解码,缩放,色彩转换的流程通常是通过FFMPEG来实现的,通常的代码实现流程是

  1. 先创建硬件设备,因为我是intel集成显卡,所以我指定了QSV来做解码的硬件加速器 ret = av_hwdevice_ctx_create(&decode.hw_device_ref, AV_HWDEVICE_TYPE_QSV, "auto", NULL, 0);
  2. 指定用hevc_qsv的硬件解码器来解HEVC码流 decoder = avcodec_find_decoder_by_name("hevc_qsv");
  3. 从视频文件里读一帧数据回来 ret = av_read_frame(input_ctx, &pkt);
  4. 如果数据是视频码流包,则丢给解码器去解码 ret = avcodec_send_packet(decoder_ctx, pkt);
  5. 等待一帧视频解码结束,此时解码出的NV12数据在GPU显存里 ret = avcodec_receive_frame(decoder_ctx, frame);
  6. 将数据从GPU内存中读回到系统内存中 ret = av_hwframe_transfer_data(sw_frame, frame, 0);
  7. 利用FFMPEG的swscale库来做基于CPU的图像缩放和色彩转换 sws_scale(sws_ctx, sw_frame->data, sw_frame->linesize, 0, sw_frame->height, pFrameRGB->data, pFrameRGB->linesize);
  8. 将转换好的数据丢给神经网络去推理
  9. goto step 3

流程示意图

对应的FFMPEG命令行大致等同于

ffmpeg -hwaccel qsv -c:v hevc_qsv -i 1.mp4 -vf hwdownload,format=nv12,scale=w=1920:h=1080 -pix_fmt rgb32 -f sdl -

这样的处理会有一些性能上的损失

  • 如果原始视频很大的话,比如4K的图像,那么从显存读数据到系统内存的函数av_hwframe_transfer_data的开销会很大
  • CPU做缩放和颜色空间转换效率不高,虽然swscale库已经优化的很好了,但是毕竟是用CPU资源做的,对于大量数据的处理,对CPU资源和内存带宽的压力都很大;如果推理是基于CPU的,那么无可避免的会带来不小的性能损失

 

优化时发现问题

更为高效的办法是将缩放和颜色空间的转换都放在GPU侧去做,由GPU把所有的数据预处理都做好,CPU只需要读回数据,就可以直接丢进推理网络里。

流程示意如下

如果要用GPU做图像缩放和色彩空间转换,网上有很多教程,例如用OpenCL代码来实现。但是对于我这个混子程序员来说,能不写代码就不写代码。经过一番搜索,终于让我得到了答案

在这里https://trac.ffmpeg.org/wiki/Hardware/QuickSync有这么命令

这个命令是利用FFMPEG的filter插件vpp_qsv, 将hevc_qsv解码出来的数据缩放成1920x1080分辨率,rgb32格式, 然后用hwdownload将数据读到系统内存,再送到sdl中显示。

照着这个命令运行一下,发现出错了。换了几个FFMPEG版本,结果都一样

 

解决问题 - 对FFMPEG源码的改动

什么叫不支持bgra的像素格式?百思不得其解。万般无奈,只能祭出VS2017的debug大法,经过一些跟踪和调试,发现问题出在创建vqq_qsv滤镜的时候, 在滤镜初始化创建directx的surface buffer的时候,会调用到libavutil\hwcontext_dxva2.c里dxva2_init_pool()函数,在line 172行左右会检查传进来的ctx->sw_format是否是dxva2 surface支持的像素格式。

而支持的像素格式在第79行

只支持NV12和P010? 实在不明白为啥,随手加个一行,看看能不能跳过去继续往下走?

编译FFMPEG, 再运行刚才的命令

图像竟然出来,还正常播放结束了!!!

 

性能数据的比较

下面来比较一下2个命令的CPU/GPU占用率和解码播放的速度有什么不同

#命令1, CPU做缩放和颜色转换
ffmpeg -hwaccel qsv -c:v hevc_qsv -i 1.mp4 -vf hwdownload,format=nv12,scale=w=1920:h=1080 -pix_fmt rgb32 -f sdl -#命令2, GPU做缩放和颜色转换
ffmpeg -hwaccel qsv -c:v hevc_qsv -i 1.mp4 -vf vpp_qsv=w=1920:h=1080:format=rgb32,hwdownload,format=rgb32 -f sdl -

先测试一下1.mp4 这是一个分辨率是640x480 h264编码的文件

CPU做缩放和颜色转换

播放速度2.03x

CPU占用率16%,可以看到有一个核基本是100%占用率。 GPU占用率39%

GPU做缩放和颜色转换

播放速度3.4x

CPU占用率16%,可以看到有一个核基本是70%占用率。 GPU占用率56%

小节

可以看出,

  • 基于GPU缩放和颜色转换的版本,播放速度是CPU版本的大约3.4x/2.03x=1.67x左右,速度有明显的提升
  • 有一个核的CPU占用率始终很高,但是GPU版本要好于CPU版本。因为有相当一部分CPU开销用在了sdl的显示上了,如果把-f sdl改为-f null, GPU版本的CPU占用率就变得非常低了

 

再测试一下4k-hevc.mp4 这是一个分辨率是3840x2160 h265编码的文件

CPU做图像缩放和色彩空间转换

有sdl显示 - 播放速度0.661x, CPU占用率18%, GPU占用率30%,

无显示     - 播放速度 0.852x

GPU做图像缩放和色彩空间转换

有sdl显示 - 播放速度1.51x, CPU占用率18%, GPU占用率58%

无显示     - 播放速度4.25x

小节

可以看出

  • 在高分辨率视频的情况下,GPU做缩放和颜色控制转换的版本的性能提升巨大
  • 在CPU和GPU间拷贝4K的视频数据会消耗大量的资源

 

最终总结和思考

问题解决了,FFMPEG的基于Intel QSV的一些滤镜用起来还是很方便的,比如vpp_qsv可以做图像分辨率缩放,色彩空间转换,帧率转换以及图像的截取crop以及各种图像效果增强等功能

具体的功能和参数可以用命令来查询

ffmpeg -h filter=vpp_qsv

 

但是有2个疑点还没有找到答案

  1. 首先想不明白为什么现在的FFMPEG代码里hwcontext_dxva2部分不支持创建RGB32格式的directx surface buffer, 那个https://trac.ffmpeg.org/wiki/Hardware/QuickSync的命令应该是2018年左右加上的,当时应该是能用的,但是现在已经不能用了。不知道是基于什么原因做了这种改动。(也许是因为大家都喜欢用GPU里面的opencl或者shader language自己来实现颜色空间转换吧,这样更灵活?)
  2. Intel的Media SDK里管做缩放和颜色空间转换的模块叫VPP (Video Post Process), 在实现上有2条路径来做,一个是走可编程的EU来做,另一条路是走专用的硬件(fixed function block)来做,这样功耗更低。具体可以参考MediaSDK github的说明, 但是这个readme也说的比较模糊,大致意思是如果数据放在系统内存里,会走EU来处理,如果数据放在显存里,会走Fixed Function来处理。我实在搞不清楚怎么看当前数据走的是哪条通道,windows下有什么工具能看GPU里的具体哪个模块在工作?

这几个问题只能留着慢慢以后再解决了...

这篇关于FFMPEG下利用Intel VPP_QSV插件实现基于GPU的图像缩放和色彩空间转换 (一) - 命令行模式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/300998

相关文章

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的

Java easyExcel实现导入多sheet的Excel

《JavaeasyExcel实现导入多sheet的Excel》这篇文章主要为大家详细介绍了如何使用JavaeasyExcel实现导入多sheet的Excel,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录1.官网2.Excel样式3.代码1.官网easyExcel官网2.Excel样式3.代码

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

MySQL之InnoDB存储页的独立表空间解读

《MySQL之InnoDB存储页的独立表空间解读》:本文主要介绍MySQL之InnoDB存储页的独立表空间,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、独立表空间【1】表空间大小【2】区【3】组【4】段【5】区的类型【6】XDES Entry区结构【