本文主要是介绍视频超分:Understanding Deformable Alignment in Video Super-Resolution,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文:理解视频超分辨率中的可变形对齐
摘要
可变形卷积最近在对齐多个帧方面表现出了令人信服的性能,并且越来越多地被用于视频超分辨率。尽管它有着显著的表现,但其潜在的对齐机制仍不清楚。本文仔细研究了变形对齐和经典的基于流的对齐之间的关系。贡献如下:
1.第一次正式研究与确立变形对齐与基于流的对齐这两个重要概念之间的关系。
2.系统地研究了偏移多样性。结果表明,偏移多样性是提高对齐精度和SR性能的关键因素。
3.提出了一个偏移精度损失在保持偏移多样性的同时稳定训练,得到了1.7dB的改进。
方法与实验
可变形卷积
首先简要回顾可变形卷积(DCN)。设 p k p_k pk是核大小为n=3的标准卷积中的第k个采样偏移量,则 p k ⊂ p_k\subset pk⊂{(-1,-1),(-1,0),···,(1,1)}。 ∆ p k ∆p_k ∆pk表示位置 p + p k p+p_k p+pk处的第k个附加学习偏移量。可变形卷积可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) y(p)=k=1∑n2w(pk)⋅x(p+pk+Δpk)在实际应用中,可以利用C/G通道将C通道特征划分为G组特征,并对每个空间位置学习 n 2 n^2 n2×G偏移量。在DCNv2中,引入了调制掩模(modulation mask),以进一步增强操纵空间支持域的能力: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) ⋅ m k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) \cdot \boldsymbol{m}_{k}(\boldsymbol{p}) y(p)=k=1∑n2w(pk)⋅x(p+pk+Δpk)⋅mk(p)调制掩模可以看作是一个注意模块,它考虑了特征的相对重要性。
可变形对齐
可变形对齐应用可变形卷积将相邻特征与参考特征对齐。以参考特征和相邻特征为输入,通过卷积来预测偏移量。参考特征仅用于预测偏移量,不参与后续卷积,TDAN中的可变性对齐如下图:
可变形对齐与光流对齐的关系
上述(1)式的公式可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x_{k}(\boldsymbol{p}) y(p)=k=1∑n2w(pk)⋅xk(p)其中, x k ( p ) = x ( p + p k + Δ p k ) x_k(p)=x(p+p_k+\Delta p_k) xk(p)=x(p+pk+Δpk),相当于1×1× n 2 n^2 n2的标准三维卷积。如下图,核为3×3的可变形卷积可分解为9个空间扭曲和1个三维卷积。核权重用w表示。
对上式一般化,使用N来代替上式中的 n 2 n^2 n2,消除了偏移量必须为平方数的约束;通过在通道维数上叠加N个扭曲特征,1×1×N的3D卷积可以实现为1×1二维卷积。换句话说,DCN相当于N个单独的空间扭曲,然后是1×1的2D卷积。
当n=1时相当于空间扭曲,然后是1×1卷积。在运动补偿的情境中,这种特殊情况等于光流对齐。换言之,可变形和基于流的对齐共享相同的公式,但偏移量数量不同。
通过计算偏移量与光流的像素差,定量研究了偏移量与光流(PWC-Net)的相关性。如下图所示,超过80%的估计值与光流的差值小于一个像素。这表明,在G=N=1的情况下,可变形对齐实际上与基于流的对齐非常相似。
训练两个实例化——原始DCN和分解(扭曲加卷积)。如下图所示,实验表明这两个实例化实现了相似的性能。
通过逐渐增加偏移量来检查性能增益,并尝试检查更多偏移量是否总能带来更好的性能。下图显示了不同N的定性比较。特别地,当偏移量从1增加到5时,PSNR迅速增加。当N进一步增加时,峰值信噪比饱和在30.23dB左右,模型的性能与偏移多样性呈正相关(基于这六个数据点,Pearson相关系数=0.9418)。这一结果表明,偏移多样性实际上有助于性能的提升。
偏移精度损失
随着网络容量的增加,变形对齐的训练变得不稳定,偏移量的溢出严重降低了模型的性能。本文提出了一个偏移精度损失来约束偏移,使其不会偏离光流太多。此外,为了便于学习最佳和多样的偏移量,引入了Heaviside阶跃函数,函数定义如下: H ( t ) = { 0 , t < 0 1 , t ≥ 0 H(t)=\left\{\begin{array}{ll} 0, & t<0 \\ 1, & t \geq 0 \end{array}\right. H(t)={0,1,t<0t≥0损失如下: L ^ = L + λ ∑ n = 1 N L n \hat{L}=L+\lambda \sum_{n=1}^{N} L_{n} L^=L+λn=1∑NLn L n = ∑ i ∑ j H ( ∣ x n , i j − y i j ∣ − t ) ⋅ ∣ x n , i j − y i j ∣ L_{n}=\sum_{i} \sum_{j} H\left(\left|x_{n, i j}-y_{i j}\right|-t\right) \cdot\left|x_{n, i j}-y_{i j}\right| Ln=i∑j∑H(∣xn,ij−yij∣−t)⋅∣xn,ij−yij∣其中,L为训练损失。λ和t是控制偏移多样性的超参数。
变形对齐的训练是不稳定的。不稳定的训练过程会导致偏移量的溢出。为了避免偏移溢出,本文提出了偏移精度损失来约束学习的偏移量,使其不会偏离光流太多。另外,由于偏移多样性在视频SR中的重要性,我们允许网络学习最佳偏移量,只要它们与光流的差不超过某个阈值。在EDVR上进行了实验,额外的改善高达1.73dB。
这篇关于视频超分:Understanding Deformable Alignment in Video Super-Resolution的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!