2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

2023-10-07 09:10

本文主要是介绍2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概述

帧间预测是混合视频编码框架的关键组成部分,旨在利用视频序列中的时间冗余,提高编码性能。在相互预测过程中,通常使用运动估计和运动补偿从参考图像中得到一个预测块。为了提高预测的编码性能,该文提出了一种基于神经网络的预测增强(NNIP)。NNIP由残差估计网络、组合网络和深度细化网络三种网络组成。

1. Framework of NNIP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHL1IveU-1649063325997)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404161816480.png)]

NNIP的输入为当前块和预测块的空间相邻L形,以及预测块,分别用 L C L_C LC L P L_P LP P P P表示,如图2所示。预测块是在传统的内部预测中使用运动补偿来生成的。NNIP的输出是一个精炼的残差。

2. Residue Estimation Network

残差估计网络的目的是捕获当前块与其预测块之间的变化。由于当前块尚未被重建(解码端),因此无法直接推导出当前块与其预测块之间的变化。因此,提出了残差估计网络,利用空间邻域L-形状来估计残差。

本文利用一个全连接网络(相邻不规则像素区域,卷积也无法使用)实现了残差估计网络。如图3所示,残差估计网络的输入值分别为 L C L_C LC L P L_P LP L C L_C LC L P L_P LP分别由当前块及其预测块的左、左上、上方的相邻像素组成。残差估计网络的输出是估计的残差。残差估计网络由四个全连通层组成。除了最后一层外,每一个全连接的层之后都有一个非线性的激活层。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0Mle7Az-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404162440624.png)]

对于大小为N×N和宽度大小为M的L区域,第一层的维度为 K = 4 M N + 2 M 2 K=4MN+2M^2 K=4MN+2M2 L C L_C LC L P L_P LP被重塑为 K K K维向量作为输入。第二层和第三层的维数为 2 K 2K 2K。最后一层是 N 2 N^2 N2维的。输出被resize为一个N×N块。

用R表示残差估计网络。R的输入和输出用 X = L C , L P X={L_C,L_P} X=LCLP R ( X ) R(X) R(X)表示。 R R R可以描述如下:
R 1 ( X ) = f ( W 1 ( R ) ) ⋅ X + B 1 ( R ) R i ( X ) = f ( W i ( R ) ⋅ R i − 1 ( X ) + B i ( R ) ) , 1 < i < 4 R ( X ) = W 4 ( R ) ⋅ R 3 ( X ) + B 4 ( R ) (1) R_1(X)=f(W_1^{(R)})\cdot X+B_1^{(R)} \\ R_i(X)=f(W_i^{(R)}\cdot R_{i-1}(X)+B_i^{(R)}), 1<i<4 \\ R(X)=W_4^{(R)}\cdot R_3(X)+B_4^{(R)} \tag 1 R1(X)=f(W1(R))X+B1(R)Ri(X)=f(Wi(R)Ri1(X)+Bi(R)),1<i<4R(X)=W4(R)R3(X)+B4(R)(1)
其中, W i ( R ) W_i^{(R)} Wi(R) B i ( R ) B_i^{(R)} Bi(R)是第 i i i层的权重和偏差参数。 f ( ) f() f()是一个非线性映射函数。

3. Combination Network

本文设计了一个组合网络,首先提取估计的残差和预测的块的特征图,然后将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导深度细化网络中的残差细化。图4描述了组合网络的结构。输入是估计的残差和预测的块。输出是连接的特征映射。组合网络由卷积神经网络实现,由一个卷积层和一个连接层组成。卷积层之后是一个非线性激活层(即PReLU),其特征映射的数量和滤波器的大小被设置为64和3×3。

4. Deep Refinement Network

图5描述了深度细化网络的结构。输入是由组合网络导出的特征图。输出是一个精炼的残差块。深度细化网络由卷积神经网络实现,由一个输入卷积层、两个卷积块和一个输出卷积层组成。每个卷积块由三个卷积层组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fBtbneuq-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404164057952.png)]

需要注意的是, D 2 , D 5 D_2,D_5 D2,D5分别是图5中两个卷积块的第一个卷积层,他们将两个不同核大小的子卷积层连接在一起。它可以用 D 2 = c o n c a t ( D 2 1 × 1 , D 2 3 × 3 ) D2=concat(D_2^{1×1}, D_2^{3\times 3}) D2=concat(D21×1,D23×3) D 5 = c o n c a t ( D 5 1 × 1 , D 5 3 × 3 ) D_5=concat(D_5^{1×1},D_5^{3×3}) D5=concat(D51×1D53×3)来表示。

深度细化网络的输出是一个细化的残差块,需要将其添加到预测块中,得到一个更准确的预测块如下:
P ′ = D ( Y ) + P (3) P^{'}=D(Y)+P \tag 3 P=D(Y)+P(3)

5. Loss function

混合编解码框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y29U8THF-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165508023.png)]

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ErymOcpH-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165823906.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Kufy7WMk-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404170731696.png)]

总结

  1. 提出了一种基于神经网络的视频编码间预测增强方法,该网络由残差估计网络、组合网络和深度细化网络组成
  2. 设计了一个残差估计网络,利用当前块与其预测块之间的空间相邻像素来估计当前块之间的残差
  3. 提出了一种组合网络来提取估计的残差和预测的块的特征图,并将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导残差的细化。
  4. 提出了一种深度细化网络,将连接的特征映射作为输入,得到一个细化的残差,并将其添加到预测块中,得到一个更精确的预测块

但是有着较高的复杂度。

Reference

Reference:Neural Network-Based Enhancement to Inter Prediction for Video Coding

这篇关于2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/157395

相关文章

Windwos +vs 2022 编译openssl 1.0.2 库

一 前言 先说 结论,编译64位报错,查了一圈没找到解决方案,最后换了32位的。 使用qt访问web接口,因为是https,没有openssl库会报错 QNetworkReply* reply = qobject_cast<QNetworkReply*>(sender());if (reply){if (reply->error() == QNetworkReply::NoError

(1995-2022年) 全国各省份-技术交易活跃度

技术交易活跃度是一个关键指标,用于衡量技术市场的交易频繁程度和活跃性。它不仅显示了市场参与者对技术交易的参与热情,而且交易的频率也体现了市场的活力。这一指标对于不同的利益相关者具有不同的意义: 对投资者而言,技术交易活跃度是把握市场趋势、评估交易策略和预测市场波动的重要工具。对企业来说,技术交易活跃度反映了其技术创新的活跃程度和市场竞争的激烈程度,有助于企业制定技术创新和市场竞争策略。对政策制定

2009年-2022年 地级市-环境污染处罚数据

环境污染处罚数据是环境保护领域中重要的信息资源,它记录了因违反环保法律法规而受到行政处罚或法律制裁的具体情况。这些数据对于提高公众的环保意识、促进企业采取环保措施以及推动环境治理具有重要作用。 数据内容概述 违法行为的主体:即受到处罚的个人或企业。违法事实:具体违反了哪些环保法律法规的行为。处罚依据:依据哪些法律法规进行处罚。处罚类型:如罚款、责令整改、停产整顿等。处罚金额:处罚的具体金额,通

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、 过 电子书 是否遗漏 【下载:本章 PDF GitHub 页面链接 】 【第二轮 才整理的,忘光了。。。又看了一遍视频】 3、 过 MOOC 习题 看 PDF 迷迷糊糊, 恍恍惚惚。 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链接 PPT和书籍下载网址: 【Gi

FFplay源码分析-video_thread

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 audio_thread() 音频解码

CTF-蓝帽杯 2022 初赛Misc计算机取证题目详解

使用工具:Volatility、Passware Kit、Arsenal Image Mounter、DiskGenius 题目文件如下: 首先要知道这些文件是什么: dmp后缀指Dump文件,是windows系统中的错误转储文件。包含计算机程序运行时的内存信息的文件。通常操作系统或应用程序在遇到系统崩溃、死机或其他严重错误时,会自动将程序运行环境的所有信息导出到一个.dmp文件中。所以

越复杂的CoT越有效吗?Complexity-Based Prompting for Multi-step Reasoning

Complexity-Based Prompting for Multi-step Reasoning 论文:https://openreview.net/pdf?id=yf1icZHC-l9 Github:https://github.com/FranxYao/chain-of-thought-hub 发表位置:ICLR 2023 Complexity-Based Prompting for

2000年 - 2022年 Fama-French三因子模型数据+代码

Fama-French三因子模型是由著名经济学家尤金·法玛(Eugene Fama)和肯尼斯·法兰奇(Kenneth French)提出的,旨在改进资本资产定价模型(CAPM),更全面地解释资产收益率的变化。该模型认为,除了市场风险溢价外,还有两个额外的风险因子可以解释股票或投资组合的超额回报率,即市值因子(也称为规模因子)和账面市值比因子。 以下是Fama-French三因子模型中涉及的关键指

BookSim2 安装步骤教程 Network-on-Chips (NoCs) 片上网络模拟器 含视频

BookSim简介 BookSim2 一个用于Network-on-Chips (NoCs) 芯片上网络的周期精确模拟器。该模拟器的设计是为了实现网络组件的模拟灵活性和精确建模。  BookSim1 是一个通用的网络模拟器,并不专门针对片上环境。不支持在片上网络环境中提出的一些更先进的功能和拓扑结构。 背景 随着集成在单个芯片上的核心和模块数量的不断增加,片上网络正成为现代微处理器不可或缺

iOS OC底层面试题(KVC(Key-value coding)

KVC(Key-value coding) -(id)valueForKey:(NSString *)key;-(void)setValue:(id)value forKey:(NSString *)key; KVC就是指iOS的开发中,可以允许开发者通过Key名直接访问对象的属性,或者给对象的属性赋值。而不需要调用明确的存取方法。这样就可以在运行时动态地访问和修改对象的属性。而不是在编译时