解决NVIDIA GeForce系列显卡NVENC并发Session数目限制问题

本文主要是介绍解决NVIDIA GeForce系列显卡NVENC并发Session数目限制问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

NVIDIA NVENC是NVIDIA显卡从2012年3月发布的Kepler-based GeForce 600系列引入的在视频编码方面的一个特性。较好地支持了显卡硬解码能力,加快视频解码速度。

在这里插入图片描述
我们在使用支持硬编码的NVIDIA GPU进行视频编码时,一般是支持多路并发的,但是对于不同系列的显卡并发数支持不一样。通过官网可以看到不同系列对多路编码的支持。

问题分析

在使用GeForce系列做多路并发编码时,发现一旦并发数目超过3个,则超过3个的线程在创建编码Session时会直接报错。

RuntimeError: NvEncoder : m_nvenc.nvEncOpenEncodeSessionEx(&encodeSessionExParams, &hEncoder) returned error 10
Description: EncodeAPI Internal Error.

很明显,这是编码Session创建失败了。

通过查表可知,消费级显卡诸如2080、3080系列均有编码并发数的限制。

在这里插入图片描述
具体对于2080Ti而言,可以看到Max # of concurrent sessions值为3,也就是最多支持3路并发。

而对于服务器型显卡,诸如A100、V100、T4等的编码并发数均没有相应的限制。
在这里插入图片描述
从算力程度对比看,这种并发数的限制应该不是由算力造成的,更可能是英伟达对消费级显卡故意设的一个槛。于是得想办法跨过这个人为设置的槛。

在这里插入图片描述

从维基百科词条“Nvidia NVENC”看到这样一段话:
在这里插入图片描述

Consumer targeted GeForce graphics cards officially support no more than 3 simultaneously encoding video streams, regardless of the count of the cards installed, but this restriction can be circumvented on Linux and Windows systems by applying an unofficial patch to the drivers. Professional cards support between 3 and unrestricted simultaneous streams per card, depending on card model and compression quality.

也就是说消费级显卡的硬编码并发数最多不超过3路,这个限制不是针对GPU的,而是针对整个系统的,即使你插了2张、4张甚至8张卡,那也最多只有3路编码能得到支持。而专业级(服务器级)显卡则不受此限制。

在这里插入图片描述

同时维基百科这段内容还提到,可以通过非官方的补丁包修复这一“bug”。

问题解决

从维基百科提供的链接找到该补丁包,可以看到描述如下:
在这里插入图片描述
这个补丁包能够移除相应的NVENC并发数限制,另外还提供了NVFBC的功能破解。由于暂时只用到NVENC,所以这里不管NVFBC。

作者也给出了受支持的驱动版本(详细版见相应网站):
在这里插入图片描述
原理是根据不同版本驱动索引到“libnvcuvid.so”或者“libnvidia-encode.so”文件,对其中的相应限制部分的汇编代码做修改。

使用起来也很方便:

git clone https://github.com/keylase/nvidia-patch.git

给驱动打补丁:(注:这个补丁会先备份原始文件,避免出错以及便于还原。)

bash ./patch.sh

提示以下信息则说明打补丁完成:

Detected nvidia driver version: 455.23.05
Attention! Backup not found. Copying current libnvidia-encode.so to backup.
59f42f088a9585828b7f11622fc1ed4b32de80ed  /opt/nvidia/libnvidia-encode-backup/libnvidia-encode.so.455.23.05
f9cb2306cb8b41eae74b7ed9f0adacf0409e8675  /usr/lib/x86_64-linux-gnu/libnvidia-encode.so.455.23.05Patched!

回滚(如果出问题可以回滚到原始版本):

bash ./patch.sh -r

打补丁后进行测试,发现原先的报错消失了。多个视频均能够被正常编码。

在这里插入图片描述

参考资料

[1] Video Encode and Decode GPU Support Matrix
[2] NVIDIA Video Codec SDK
[3] Nvidia NVENC - From Wikipedia, the free encyclopedia
[4] github - keylase / nvidia-patch
[5] github - keylase / nvidia-patch / patch.sh
[6] 突破NVIDIA NVENC并发Session数目限制
[7] NVIDIA Silently Increases GeForce NVENC Concurrent Sessions Limit to 3
[8] github - NVIDIA / NvPipe - Multiple encoder session for multiple users - best practice? #41
[9] Nvenc session limit per GPU

这篇关于解决NVIDIA GeForce系列显卡NVENC并发Session数目限制问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/922141

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)