2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

2023-10-07 09:10

本文主要是介绍2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概述

帧间预测是混合视频编码框架的关键组成部分,旨在利用视频序列中的时间冗余,提高编码性能。在相互预测过程中,通常使用运动估计和运动补偿从参考图像中得到一个预测块。为了提高预测的编码性能,该文提出了一种基于神经网络的预测增强(NNIP)。NNIP由残差估计网络、组合网络和深度细化网络三种网络组成。

1. Framework of NNIP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHL1IveU-1649063325997)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404161816480.png)]

NNIP的输入为当前块和预测块的空间相邻L形,以及预测块,分别用 L C L_C LC L P L_P LP P P P表示,如图2所示。预测块是在传统的内部预测中使用运动补偿来生成的。NNIP的输出是一个精炼的残差。

2. Residue Estimation Network

残差估计网络的目的是捕获当前块与其预测块之间的变化。由于当前块尚未被重建(解码端),因此无法直接推导出当前块与其预测块之间的变化。因此,提出了残差估计网络,利用空间邻域L-形状来估计残差。

本文利用一个全连接网络(相邻不规则像素区域,卷积也无法使用)实现了残差估计网络。如图3所示,残差估计网络的输入值分别为 L C L_C LC L P L_P LP L C L_C LC L P L_P LP分别由当前块及其预测块的左、左上、上方的相邻像素组成。残差估计网络的输出是估计的残差。残差估计网络由四个全连通层组成。除了最后一层外,每一个全连接的层之后都有一个非线性的激活层。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0Mle7Az-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404162440624.png)]

对于大小为N×N和宽度大小为M的L区域,第一层的维度为 K = 4 M N + 2 M 2 K=4MN+2M^2 K=4MN+2M2 L C L_C LC L P L_P LP被重塑为 K K K维向量作为输入。第二层和第三层的维数为 2 K 2K 2K。最后一层是 N 2 N^2 N2维的。输出被resize为一个N×N块。

用R表示残差估计网络。R的输入和输出用 X = L C , L P X={L_C,L_P} X=LCLP R ( X ) R(X) R(X)表示。 R R R可以描述如下:
R 1 ( X ) = f ( W 1 ( R ) ) ⋅ X + B 1 ( R ) R i ( X ) = f ( W i ( R ) ⋅ R i − 1 ( X ) + B i ( R ) ) , 1 < i < 4 R ( X ) = W 4 ( R ) ⋅ R 3 ( X ) + B 4 ( R ) (1) R_1(X)=f(W_1^{(R)})\cdot X+B_1^{(R)} \\ R_i(X)=f(W_i^{(R)}\cdot R_{i-1}(X)+B_i^{(R)}), 1<i<4 \\ R(X)=W_4^{(R)}\cdot R_3(X)+B_4^{(R)} \tag 1 R1(X)=f(W1(R))X+B1(R)Ri(X)=f(Wi(R)Ri1(X)+Bi(R)),1<i<4R(X)=W4(R)R3(X)+B4(R)(1)
其中, W i ( R ) W_i^{(R)} Wi(R) B i ( R ) B_i^{(R)} Bi(R)是第 i i i层的权重和偏差参数。 f ( ) f() f()是一个非线性映射函数。

3. Combination Network

本文设计了一个组合网络,首先提取估计的残差和预测的块的特征图,然后将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导深度细化网络中的残差细化。图4描述了组合网络的结构。输入是估计的残差和预测的块。输出是连接的特征映射。组合网络由卷积神经网络实现,由一个卷积层和一个连接层组成。卷积层之后是一个非线性激活层(即PReLU),其特征映射的数量和滤波器的大小被设置为64和3×3。

4. Deep Refinement Network

图5描述了深度细化网络的结构。输入是由组合网络导出的特征图。输出是一个精炼的残差块。深度细化网络由卷积神经网络实现,由一个输入卷积层、两个卷积块和一个输出卷积层组成。每个卷积块由三个卷积层组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fBtbneuq-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404164057952.png)]

需要注意的是, D 2 , D 5 D_2,D_5 D2,D5分别是图5中两个卷积块的第一个卷积层,他们将两个不同核大小的子卷积层连接在一起。它可以用 D 2 = c o n c a t ( D 2 1 × 1 , D 2 3 × 3 ) D2=concat(D_2^{1×1}, D_2^{3\times 3}) D2=concat(D21×1,D23×3) D 5 = c o n c a t ( D 5 1 × 1 , D 5 3 × 3 ) D_5=concat(D_5^{1×1},D_5^{3×3}) D5=concat(D51×1D53×3)来表示。

深度细化网络的输出是一个细化的残差块,需要将其添加到预测块中,得到一个更准确的预测块如下:
P ′ = D ( Y ) + P (3) P^{'}=D(Y)+P \tag 3 P=D(Y)+P(3)

5. Loss function

混合编解码框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y29U8THF-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165508023.png)]

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ErymOcpH-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165823906.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Kufy7WMk-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404170731696.png)]

总结

  1. 提出了一种基于神经网络的视频编码间预测增强方法,该网络由残差估计网络、组合网络和深度细化网络组成
  2. 设计了一个残差估计网络,利用当前块与其预测块之间的空间相邻像素来估计当前块之间的残差
  3. 提出了一种组合网络来提取估计的残差和预测的块的特征图,并将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导残差的细化。
  4. 提出了一种深度细化网络,将连接的特征映射作为输入,得到一个细化的残差,并将其添加到预测块中,得到一个更精确的预测块

但是有着较高的复杂度。

Reference

Reference:Neural Network-Based Enhancement to Inter Prediction for Video Coding

这篇关于2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/157395

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

上海大学《2022年836+915自动控制原理真题及答案》 (完整版)

Part1:2022年上海大学真题题目 学硕836 专硕915 Part2:2022年上海大学真题答案 学硕836 专硕915