Learning-Based Just-Noticeable-Quantization- Distortion Modeling for Perceptual Video Coding

本文主要是介绍Learning-Based Just-Noticeable-Quantization- Distortion Modeling for Perceptual Video Coding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于学习的恰可察觉量化 - 失真建模用于感知视频编码

摘要 - 传统的基于预测视频编码的方法正在达到其潜在的编码效率改进的极限,因为计算复杂性严重增加。作为替代方法,感知视频编码(PVC)已经尝试通过消除感知冗余来实现高编码效率,使用实时可观失真(JND)定向的PVC。先前的JND通过将白高斯噪声或特定信号模式添加到原始图像中来建模,这不适合于由于能量减少的失真而找到JND阈值。在本文中,我们提出了一种新的基于离散余弦变换的能量减少JND模型,称为ERJND,更适用于基于JND的PVC方案。然后,提出的ERJND模型扩展到两个基于学习的刚引人注目的量化 - 失真(JNQD)模型作为可用于感知视频编码的预处理。两个JNQD模型可以根据给定的量化步长自动调整JND电平。两个JNQD模型中的一个,称为LR-JNQD,基于线性回归,并基于提取的手工特征确定JNQD的模型参数。另一个JNQD模型基于卷积神经网络(CNN),称为CNN-JNQD。据我们所知,我们的论文是第一种根据量化步长自动调整JND电平的方法,用于预处理视频编码器的输入。在实验中,LR-JNQD和CNN-JNQD模型均应用于高效视频编码(HEVC),并且最大(平均)比特率分别降低了38.51%(10.38%)和67.88%(24.91%),几乎没有与没有预处理的输入相比,主观视频质量下降。

简介最近,即使在智能手机和数码相机等小型移动设备上也能够捕获4K超高清晰度(UHD)视频,而且UHD电视在消费市场上越来越普遍。然而,由于采用新的UHD视频服务所需的大带宽和存储空间,许多高清(HD)视频传统服务仍然被数字电视广播,IPTV流和互联网流服务使用。因此,开发可以减小数据文件大小而不会严重降低其主观视觉质量的图像和视频压缩技术在广播和通信行业中变得非常重要。鉴于这种需要,最近开发的新视频编码标准,即高效视频编码(HEVC)[1],正变得越来越流行。在相似的主观质量水平下,其编码效率约为H.264 / AVC的两倍[1]。然而,使用传统的预测视频编码方法进一步提高编码效率变得越来越困难,因为预测性能在一定程度的计算复杂度下变得饱和。相反,应用感知视频编码(PVC)方法通常更有利,这有效地减少了人类视觉系统(HVS)无法察觉的感知冗余[16] - [21]。通过消除视频中的感知冗余信息直到明显的失真(JND)水平,与传统的视频编码方法相比,可以实现进一步的压缩增益[2] - [4] .PVC方法中最重要的因素之一是确定用于编码输入信号的感知失真阈值。这是一个涉及JND建模的过程JND建模可以分为两类:像素域JND [5] - [9]和变换域JND [10] - [15]。由于大多数视频编码器都包含变换和量化过程,因此变换域JND方法通常比像素域JND方法更受欢迎。在变换域JND模型中,基于离散余弦变换(DCT)的JND建模已被广泛采用,因为DCT经常被用作编码过程中的核心变换。然而,几乎所有基于DCT的JND模型都不能进行量化。在JND建模中考虑了这些影响,因此在量化过程中无法准确地执行JND抑制。这是因为现有的基于DCT的JND模型是通过以加性方式增加DCT系数值来独立测量每个DCT系数的JND阈值而构建的。应该注意的是,JND测量中的这种失真与在视频编码过程中通过量化产生失真有很大不同。视频编码期间的量化过程经常通过降低其信号能量来使变换系数值失真。因此,由量化引起的失真通常需要沿着块边界的块效应或者对象边缘周围的模糊。由于在传统的JND模型中没有仔细考虑由于量化引起的这种失真,JND模型无法精确估计应该应用于PVC的感知阈值。
另一种应用PVC的方法是在视频输入之前根据JND模型进行预处理[18] - [21]。在该方法中,在编码之前从输入中去除不可察觉的高频信息,这有助于提高编码效率。然而,当这样做时,难以预测原始输入的重构帧和JND定向预处理输入的重构帧中的感知失真程度,因为通常不考虑量化失真。在本文中,我们的贡献可归纳如下:

(i)我们通过考虑量化效应提出了一种新的基于DCT的能量减少JND(ERJND)模型。所提出的ERJND模型以这样的方式设计:DCT块中的所有系数值减少相同的量直到感知到所产生的失真,从而可以适当地应用于PVC。我们通过比较原始图像和ERJND指向的抑制图像来显示所提出的ERJND模型的有效性。
(ii)然后将ERJND模型扩展为两个不可察觉的量化失真(JNQD)模型,这些模型可以在编码之前应用于预处理输入。第一个JNQD模型,称为LR-JNQD,是基于线性回归的JNQD,具有缩放因子,用于调整非压缩情况下的真实感知失真阈值与压缩情况的预处理中的抑制级别之间的裕度。通过这样做,可以计算JNQD级别,其中考虑编码器中的量化。称为CNN-JNQD的第二个JNQD模型是卷积神经网络(CNN),其在给定量化参数下针对JNQD进行训练。发现CNN-JNQD在感知冗余的比特率降低方面明显优于最先进的方法。我们的工作是使用CNN以非常小的感知失真来压缩输入的第一种方法。本文的结构如下。第2节详细介绍了各种常规JND模型和PVC方案。在第3节中,我们介绍了一种新的基于DCT的ERJND模型,该模型将量化考虑在内。在第4节中,我们使用图像和CNN中提取的特征通过线性回归彻底描述了扩展的JNQD模型。第5节介绍了基于两种JNQD模型的PVC方案的主观和客观实验结果,与其他最先进的PVC方案进行了比较。第6节总结了我们的JNQD工作。

2相关作品
人类视觉系统(HVS)部分地感知场景信息,但并非所有感知信息都具有相同的重要性。各种传统的PVC方案使用HVS的这些特性来通过减少图像区域中不具有感知重要性的信息来压缩图像,并且通过保留或增强具有感知影响的区域中的信息来进行压缩。此时,其中一个该过程中最重要的因素是确定感知失真阈值。为此,JND的研究已成为图像和视频压缩的重要课题。这种研究主要分为像素域和变换域方法。但我们专注于变换域方法,以开发适用于图像和视频压缩的JND模型。
A.常规变换域JND模型
在变换域JND模型中,基于DCT的JND模型已被广泛研究和使用,因为它们可以直接应用于图像和视频压缩过程[10] - [15]。 Wei和Ngan [10]提出了一种对比度掩蔽(CM)-JND模型,它具有不同的CM-JND值,适用于三种图像补丁类型的平面,边缘和纹理。之前基于DCT的JND模型设计为仅在8×8块大小的DCT内核上运行。 Ma等人。 [11]甚至在16×16块大小的DCT内核上扩展它们。 Bae和Kim [12]揭示了背景亮度和空间频率与亮度掩蔽(LM)效应的相关性,并创建了LM-JND模型,它是2D曲面。此外,他们提出了2D CM-JND模型,其2D曲面与空间频率和纹理复杂性有关[13]。 Bae和Kim [14]基于概率求和理论建立了具有4×4到32×32的各种块大小DCT内核的广义CM-JND模型,适用于HEVC编码结构。最近,Bae和Kim [15]提出了一种联合效应JND模型,用于在DCT域中进行时间掩蔽(TM)和foveated掩蔽(FM)效应。该模型是考虑CSF,LM和CM效应的基于DCT的综合JND模型,除了FM和TM效应之外,还用于现有的基于DCT的JND模型。
1)变换域JND建模的问题:图1是HEVC中用于残差变换系数分布的量化结构

在图1中,黑点表示表示级别,Qstep是量化步长,f是舍入偏移参数(帧内预测的1/3,HEVC中帧间预测的1/6)[1]。 残余变换系数的很大一部分倾向于在死区内,因为它们的分布通常遵循拉普拉斯分布[27]。因此,与视频编码中的原始帧相比,重构帧的能量可能会降低。。 然而,由于量化处理是舍入操作,因此每个量化的变换系数的能量可以在非死区中增加或减少。 然而,我们发现随着量化步长的增加,图像中量化变换系数的能量趋于减小。为了看到这一点,我们首先定义量化后幅度减小的系数的比率,如下: 

其中ND是在逆量化之后其幅度已经减小的变换系数的总数。 W和H是帧的宽度和高度。我们还定义了重建框架的能量(Erecon)与原始框架的能量(Eori)之间的能量差(DE)。

其中Eori和Erecon是原始帧和重构帧的变换系数的平方平均值。 图3示出了在所有帧内和随机接入配置下的8个量化参数(QP)值下由HEVC测试模型(HM版本11.0)编码的“PartyScene”序列的前32帧的平均RD和DE。如图3所示, 对于整个测试QP范围,RD大于50%,并且对于除QP = 12和17之外的所有QP值,DE小于0,因为在较低的QP值下死区是窄的。 但是,由于QP增加,死区变宽,因此RD急剧增加。 而且,重建帧的平均能量显着降低。 因此,值得注意的是,JND需要被建模以降低变换系数级别以与编码处理中的量化一致。 然而,现有的DCT域JND模型在JND建模中没有精确地考虑这种量化效应。

图4示出了通过独立地增加每个变换系数的幅度来建模基于DCT的JND的概念,其中在对象开始感知所产生的失真的点处确定JND水平。如前所述,这不反映量化失真效应,导致变换系数的总能量减小。从图2中可以看出,取决于图像块的复杂性,DCT系数的幅度的增量和减量导致完全不同的感知失真。如图2-(b)的红色框(均匀区域)所示,失真是噪声类型,并且比蓝色框(纹理复杂区域)中的变形更加可见。然而,在红色框(均匀区域)图2-(c)中,失真是模糊类型,并且比蓝色框(纹理复杂区域)中的可见性更小。 JND建模应考虑到这种差异。为了解决这个问题,我们设计了一种新的基于DCT的能量减少JND模型,称为ERJND,它通过减少与PVC量化过程同时的DCT系数的大小来工作。


B.常规PVC方案
1)PVC中的JND定向量化:使用上述基于DCT的JND模型,通过调整变换系数的抑制水平,可以利用视频编码器中的量化过程来实现现有的PVC方案.Naccari和Pereira [32]提出了根据对比度掩蔽和亮度适应的JND加权处理。 [32]中的JND抑制是通过量化过程来执行的,其中JND加权过程在H.264 / AVC的前向和反量化过程中感知地修改预缩放因子和乘法因子。 Naccari和Mrak [33]也提出了HEVC的强度相关空间量化(IDSQ)感知工具。张等人。 [34]通过修改IDSQ [33]为HEVC范围扩展(HM-RExt)提出了HDR-IDSQ。所有这些方法[32] - [34]使用传统的JND曲线并导致标准不兼容的问题,因为需要修改解码器。罗等人。 [16]提出了一种JND定向变换系数抑制方法,该方法通过相应的JND值的量来减小变换系数的大小。最近,Bae等人。 [17]提出了可变大小DCT内核的广义JND模型,并建立了基于DCT的局部失真检测概率模型(LDDP)。提出的PVC方案使用LDDP模型优于罗的JND指导的JND模型[16]。然而,这种JND定向抑制方法[16],[17]有一个局限性,因为它们只能抑制残差的感知冗余分量图片。


2)用于PVC的JND定向预处理:在大多数情况下,具有JND定向预处理的PVC方案通过将原始输入信号平滑到仍未在感知上识别失真的点来提高压缩性能。以这种方式,它们是有利的,因为它们可以应用于任何视频编解码器,因为在开始编码器处理之前可以从整个原始输入信号中去除感知冗余信息。 Oh和Kim [18]提出了一种人类感知的视觉质量导向显着性模型,并通过应用提出的显着性模型改进了使用FM效应的现有PVC方案。在使用FM效果的传统PVC方案中,仅在无人区域上执行平滑,而Oh的方法根据人类注意力显着程度执行增强或平滑。丁等人。 [19]使用简单的线性迭代聚类,其中聚类是具有相同感知意义的原子区域,称为超像素,使用k均值聚类。由于高斯滤波是在具有相同感知意义的超像素上进行的,因此与现有的包含高斯滤波的PVC方案相比,压缩效率得到了提高,同时保留了边缘。此外,Vidal等人。 [20]使用基于像素的JND阈值引导自适应空间滤波器,其由双边滤波器和自适应加权平均滤波器的组合构成。最近,Xiang等人。 [21]提出了一种基于刚引人注意的失真滤波器和自适应双边滤波器的自适应感知预处理方法。
在该方法中,量化参数仅用于阈值条件,而不是用于优化滤波器参数。通常,大多数传统的预处理方法不考虑由量化过程引起的失真程度。即使当原始输入帧和预处理帧在感知上不同时,也不确定具有输入预处理的重建帧是否在感知上与没有输入预处理的重构帧相同。在使用大量化步长的情况下,所产生的失真是相当大的,有必要为JND阈值提供足够的余量。余量表示从ERJND模型获得的感知失真阈值与其考虑量化失真的预测JND值之间的差。

III。一种新的基于DCT的能量减少的正常通知模型
与现有的基于DCT的JND建模不同,它增加了每个频率系数的幅度,如图4所示,我们进行了一项实验,通过在每个8×8 DCT块中将所有频率系数的幅度减少相同的量来对ERJND进行建模。 。图5说明了我们的ERJND建模的概念,它降低了DCT域中变换系数的幅度。我们的ERJND模型基于新提出的基于DCT的CM-JND模型,用于失真(例如,块效应,模糊)。由量化产生的视频编码。通过估计DCT系数的抑制幅度与DCT块中的纹理复杂度之间的相关性,通过回归建立所提出的基于DCT的CM-JND模型。通过这种方式,我们的ERJND被建模为降低DCT系数的能量,这反映了视频编码中的量化效应。


A.提议的ERJND建模
我们进行了降低8×8块的DCT系数幅度的实验,以获得基于新型CM-JND模型的基于DCT的JND模型。图6示出了执行JND实验的不适当方式,其中各个DCT系数的大小独立地减小。通常,自然图像的DCT系数水平在低频时通常较大而在高频时通常较小。因此,尽管高频处的小系数幅度减小到零,但是可能无法识别所产生的失真。相反,对于ERJND建模,我们同时将每个DCT块的整体块DCT系数的幅度减小相同的量。对于ERJND实验,我们提取了各种纹理的图像块,但是每个图像块的纹理均匀。一般来说,由于已知畸变认知依赖于图像的纹理复杂性[14],我们使用度量来测量图像纹理复杂度,称为结构对比度指数(SCI)[14]。 SCI表示为DCT系数的峰度与在DCT域中获得的图像的对比度之比,并由下式给出:

其中B表示N×N块中像素值的比特深度,N是DCT块大小,C(ω)是频率ω,△的DCT系数,K表示N×N的对比度和峰度。 DCT块[14]。 我们将证明我们的ERJND水平与SCI值密切相关,即图像纹理复杂性。 表I总结了用于ERJND建模实验的实验条件。 

对于实验,从TID201图像数据库[22]收集了各种SCI值的92个32×32大小的均匀斑块,并且将收集的斑块的亮度强度归一化为0.5,以研究ERJND水平与纹理的相关性。补丁的复杂性。图7示出了具有不同SCI值的32×32大小的七个图像块。图7示出了一个屏幕区域,其中一个原始32×32补丁和其失真的32×32补丁以并排方式随机显示。 ERJND以8×8块DCT块为单位建模。实际上,8×8块DCT块尺寸太小而无法测量JND电平。因此,我们使用具有均匀纹理的32×32大小的图像块,其中假设内部16个8×8DCT块具有相似的SCI值。


对于ERJND建模,10名具有正常vison的受试者参与主观实验。每个32×32大小的测试片中的16个8×8块DCT块的所有系数幅度同时被减少1个,直到每个对象开始检测到所得到的失真,或者达到零系数值。对于每个32×32大小的测试贴片,其SCI值计算为其内部16个8×8DCT块的平均值,并且其JND值被确定为从10个受试者获得的10个JND值的中值[14]。 。对于ERJND建模,发现JND水平,其确定8×8DCT块的DCT系数的大小的抑制水平K. 

其中a和b的经验分别为42.5和0.54,通过回归使用92个32×32大小的训练片的真实抑制水平K及其SCI值。在图9中,纵轴表示抑制水平( K),黑点表示从主观实验测量的各种SCI值的真实抑制水平K,红色曲线是由(4)中的ERJND模型获得的估计抑制水平KERJND。

B.对拟议的ERJND模型的分析
在我们的ERJN模型中,如图9所示,对于小的SCI值(在均匀区域中),可以容易地识别失真,但是即使在系数水平大大降低的情况下,在具有大SCI值的复杂纹理区域中往往难以察觉。为了评估所提出的ERJND模型的性能准确性,我们使用TID2013图像数据集[22]将其与最新的基于DCT的JND模型(Bae的LDDP JND模型[17])进行了比较。表II显示了我们的ERJND模型和Bae的LDDP JND模型在PSNR和DMOS值方面的性能比较。通过通过确定的JND值减小每个8×8块DCT块的所有系数幅度来获得表II中的失真的实验结果。除观察距离外,主观质量评估条件与表I中的ERJND建模实验中使用的条件相同。在这个实验中,观看距离被设置为屏幕高度(2.1m)的3倍,这对于55英寸全高清电视[30]的家庭观看条件是典型的。每个原始图像及其两个受损图像,用ERJND模型和Bae的JND模型通过平均意见得分(MOS)的主观投票得分进行评估,从最差到最佳感知范围从0到5
质量。来自ERJND模型或Bae的JND模型的原始图像及其受损图像的MOS值分别表示为MOSori和MOSJ ND。然后,将两个获得的MOS值转换为DMOS(微分平均意见得分)值,以比较它们的感知质量,如DMOS = MOSJND - MOSori(5)如表II所示,提出的ERJND模型产生较低的PSNR值(2.65)平均值dB较低,DMOS值较小(0.02较小)。这意味着我们的ERJND模型能够以较少的感知失真消除更大量的感知冗余。然而,I04图像中Bae的LDDP JND的PSNR值低于所提出的ERJND图像的PSNR值。如图10-(a)所示,I04图像具有许多均匀区域,例如面部区域。由于在单调区域中通过减小变换系数的大小而产生的失真很容易引起,因此均匀图像区域中的DCT系数难以降低,因为它们具有相对较少的感知冗余.Bae的LDDP JND模型降低了I04的DCT系数。测试图像比建议的ERJND模型更多。但是,在Bae的LDDP JND图像中,在女性的脸颊区域中,块状伪像明显可见。从这种情况可以看出,当减小频率系数的幅度时,在测量所引起的失真的JND值时,现有的基于DCT的JND模型更受限制。相反,图10-(d)示出了原始图像I13,其是非常复杂的纹理森林谷照片。在诸如此类的复杂纹理图像中,其经常包含大量的感知冗余,DCT系数的大小可以大大减小。因此,即使在显着低于其他图像的PSNR水平下,也难以主观地感知复杂纹理图像中的失真。表II中的检测概率(DP)值表示已经察觉到由ERJND和Bae的LDDP JND模型引起的扭曲的受试者的百分比。在Bae的LDDP JND模型中,对于I04和I16图像,DP值大于0.5(50%)的值。另一方面,对于ERJND模型,对于所有测试图像,DP值总是小于0.5。因此,ERJND模型是一种更适合减少能量失真的JND模型。

 

 IV。 PVC的量化失真模型
A.量化自适应PVC的意义
在PVC schme中执行JND定向抑制时,包含JND抑制的重建图像在感知上不应与没有JND抑制的图像在感知上不同。与原始帧相比,在量化和反量化之后的抑制帧中的感知失真的可见性控制了视频编码器中的常规JND定向抑制。从而,
在PVC方案的情况下,在编码过程期间最终由所选择的量化步长确定JND控制的抑制电平。然而,如前所述,现有的预处理的PVC方案几乎不考虑在编码过程期间由量化产生的失真。这意味着在预处理PVC中,必须基于输入帧的复杂度和给定的量化步长来控制抑制程度。为实现此目的,我们提出了一种JNQD模型,该模型为ERJND模型添加了比例因子,以便根据量化步长调整预处理中的ERJND定向抑制水平。
B.提出的基于JNQD模型的预处理PVC方案
如上所述,JNQD仅用一个比例因子α乘以ERJND模型建模。在这种情况下,α是每个8×8DCT块的图像复杂度和量化步长的函数,其具有0和1之间的实数值。当由于量化而发生大量失真时,α被设置为值接近于0,几乎不会产生JNQD定向抑制。然而,对于小的量化失真,α被设置为接近1的值,从而可以最大程度地执行JNQD指向的抑制。 JNQD模型由下式给出

图1示出了在训练阶段期间在(6)中找到缩放因子α的过程的框图,以及示出了具有α的JNQD在测试阶段中用于预处理的应用的框图。 在训练阶段,基于对失真可见程度的测量来确定α值。 为此,我们为每个8×8DCT块提出客观压缩失真可见性度量(CDVM),其中α被确定为使得CDVM等于1.CDVM被定义为原始帧之间的失真(DB2)的比率。 以及其编码的JNQD定向抑制帧的重建帧到原始帧与其ERJND定向抑制帧之间的失真(DB1): 为了找到α与CDVM方面的失真可见性之间的相关性,我们重复对各种α值进行了JNQD定向抑制。使用来自三个训练帧的总共18,720个8×8大小的DCT块来找出CDVM与α的关系。由此,我们获得了187,200个CDVM值,这些值从α= 0.1到1.0计算,QP = 7,12,17,22,27,32,37和42的每个值增加0.1.JNQD变为类似于ERJND QP <7,因为α接近1,而它变得非常小,接近0,QP> 42,因为α≈0。对于每个QP值,我们通过一阶线性回归得到一个CDVM-α图。斜率和截距。对于每个8×8DCT块,通过线性回归再次对斜率和截距建模五个特征。这称为基于线性回归的JNQD(LR-JNQD)。 LR-JNQD需要一套良好的手工制作特征,这使得难以进行精确建模。为克服这一局限,我们提出了一种基于卷积神经网络(CNN)的新预处理方法,称为CNN-JNQD,可以直接产生JNQD定向的抑制图像。图11还示出了CNN-JNQD的训练和测试阶段。为了训练CNN-JNQD,我们使用预处理的8×8尺寸像素域图像作为标签补丁数据。这是通过应用具有最佳α值的JNQD定向抑制获得的,其中CDVM = 1,这是通过对给定量化步长的各种α值重复执行编码处理而发现的。通过这些实验,证明CNN-JNQD明显优于LR-JNQD。 LR-JNQD和CNN-JNQD的培训和测试阶段将在以下小节中详细介绍。


C. JNQD模型的培训
1)LR-JNQD和CNN-JNQD的压缩失真可见度度量:在解释压缩失真可见性度量之前,必须注意ERJND提供最大的JND抑制级别。当对应用了ERJND定向抑制的输入帧执行压缩时,很明显,由于编码期间的额外量化失真,在所得到的重构帧中将出现可见失真。这就是为什么必须通过在编码过程之前考虑到要发生的量化失真来调整原始图像的ERJND模型的JND水平,这是由我们提出的JNQD模型完成的。通过将新的抑制级别应用于原始输入帧作为预处理,我们期望应用JNQD定向抑制的结果重建帧在感知上与没有这种预处理的重构帧类似。如前所述,对于JNQD模型中的α值,需要客观度量来测量JNQD指向的抑制输入的重构帧与原始输入的重建帧之间的相对失真,称为CDVM。提出的CDVM是一种新的基于ERJND的压缩局部失真可见性度量,它是使用局部失真检测概率模型[17]导出的。 [17]中的局部失真检测概率模型PB定义为

从(9)可以看出,DB是与PB成比例的值,并且在DB = 1时失真检测的概率是0.5。因此,如果执行JND定向抑制直到DB = 1,则最佳压缩性能可以是预期。然而,应该注意(9)和(10),对于DCT块中的不同频率系数,独立地处理失真检测。也就是说,Bae的失真检测概率模型不适合描述由于量化而发生的失真,由此同时改变所有系数。由于我们提出的ERJND是通过同时降低DCT模块中的所有频率系数水平来模拟量化效应,我们需要通过同时降低DCT模块中的所有频率系数水平来确定失真的新可见性阈值。因此,在我们的例子中,(10)中的DB被重新定义为两个可见性失真:一个是可见性失真DB1
在原始8×8DCT块的系数级别与ERJND指向的预处理的8×8图像块的DCT块的系数级别之间;另一个是原始8×8DCT块的系数级别与JNQD指向的预处理8×8图像块的量化DCT块的重建系数级别之间的可见性失真DB2。我们确认原始图像及其ERJND定向抑制图像不是通过主观图像质量评估在感知上区分的。因此,如果DB1≥DB2,则可以说在感知上没有检测到由JNQD定向抑制引起的重建的8×8图像块中的失真。 DB1和DB2定义为

2)LR-JNQD建模:为了找到CDVM-α关系,我们通过将给定量化步长(或QP值)的α值从0.1变化到1.0,增量为0.1,对输入应用JNQD定向抑制.CDVM是 建模为α的线性函数,每个8×8图像块具有斜率和截距。然后,对于给定量化步长,从8×8图像块提取的五个特征通过回归建模斜率和截距 通过这样做,对于给定的8×8图像块,提取其相应的五个特征并用于估计斜率和截距。然后我们可以找到给出CDVM = 1的α值。找到的α值用于计算 对于给定的量化步长,8×8图像块的JNQD抑制水平。对于给定的量化步长,CDVM被建模为8×8图像块。

其中Sr和Ir是斜率和截距。图12示出了对于两个QP值,三个不同的8×8图像块的CDVM和α之间的关系。如图12所示,CDVM倾向于具有α的线性关系,并且斜率和截距根据8×8图像块的纹理特性而不同。图13显示了如何确定相对于CDVM的合适的α值。图13中的左图示出了对于0≤α≤1,CDVM总是小于1的情况。在这种情况下,最佳α被确定为1.图13中的中间图示出了对于0≤α≤1,CDVM总是大于1.在这种情况下,最佳α被确定为0.图13中的右图示出了CDVM = 1的情况,其位于α= 0和α之间。在这种情况下,确定最佳α使得CDVM = 1。
为了找到给定8×8图像块的α值,我们首先根据从8×8图像块提取的手工制作的特征来建模缩放因子α。为此,我们考虑了[24]中综述的常用作图像复杂度特征的图像特征。在具有两个SCI特征的13个特征中[14],选择了前五个特征,其与模型化斜率和基于线性回归获得的截距高度相关。 

这篇关于Learning-Based Just-Noticeable-Quantization- Distortion Modeling for Perceptual Video Coding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/186107

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{