[文献翻译] Space-variant blur kernel estimation and image deblurring through kernel clustering

本文主要是介绍[文献翻译] Space-variant blur kernel estimation and image deblurring through kernel clustering,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 写在前面
  • 基于核聚类的空变模糊核估计以及图像去模糊
  • 摘要
    • 关键字
  • 1. 介绍
  • 2.相关工作
  • 3.模糊核估计和去模糊框架
    • 3.1 图像块模糊核估计
    • 3.2 使用核聚类以优化模糊核
    • 3.3 通过图像融合进行空变去模糊
  • 4. 实验结果
  • 5. 讨论
  • 6. 结论
  • 参考文献

写在前面

文章:Space-variant blur kernel estimation and image deblurring through kernel clustering
链接: https://www.sciencedirect.com/science/article/abs/pii/S0923596518309925

第一次做翻译,求大佬轻喷。

基于核聚类的空变模糊核估计以及图像去模糊

摘要

本文提出了一种空变模糊核估计以及图像去模糊的框架。对于空变模糊核估计,本文将输入图像分成多个小块,对于每个小块,模糊核是可以估计的。接着将估计出的核进行分类以确定图像中不同的内核簇。在聚类过程中,不可靠的模糊核将被淘汰。每个内核簇的模糊核最后将使用对应的图像区域进行优化,该图像区域为与集群中内核相关的图像块的并集。对于空变图像去模糊,将整个图像与每个模糊核进行反卷积以生成一组去模糊图像。然后将这些图像融合成无模糊图像,融合过程会从去模糊图像集中选取最佳区域。

关键字

空变图像去模糊;空变点扩散函数(PSF)估计;图像融合

1. 介绍

在很多成像应用中,所记录的图像是能够理想化表示场景的真实图像的模糊版本。导致模糊的常见原因有大气畸变、光学像差、传感器上像素点的平均以及相机和目标物体间的运动。图像恢复的目的是从一张或一组图像中恢复出真实图像。恢复问题往往是不适定的,需要通过正则化来为恢复后图像增加一些所需的属性。
大多解决图像去模糊问题的算法都假设退化过程涉及线性(平移)不变模糊核,即点扩散函数(PSF)。当点扩散函数未知时,该问题被称为盲图像反卷积。今年,可以处理大移动造成的模糊的非常成功的盲图像反卷积技术已经开发出来。然而,一般来说整个图像被单个点扩散函数模糊的假设是无效的。例如,当相机抖动(即空间变化的运动模糊)或景深相对狭窄(即空间变化的离焦模糊)时,场景中会产生不可忽视的深度变化导致空变模糊。由于相机或场景的旋转导致的模糊是另一种空变模糊。对于深度变化导致的空变模糊,模糊核会因不同的区域深度而缩放。对于旋转导致的模糊,可对模糊核进行参数化建模。通常,场景会是动态的,除了大气畸变、深度变化和光学像差外,还有对象的独立运动。因此,处理任意类型的空变模糊核是有必要的。这是一个具有挑战性的任务,需要对图像的模糊区域进行显式或隐式的分割。
本文提出了一种不受参数核限制的盲空变去模糊框架。我们的策略有以下主要步骤:粗略估计小图像块的模糊核;通过核聚类以确定场景中的重要模糊;使用图像区域及其对应内核簇优化内核;最后通过核估计和图像融合进行反卷积以进行时变去模糊。在此框架内,特定的方法(例如模糊核估计、聚类以及图像融合)可以改变。
在第2章中,我们介绍了文献中的相关工作。在第3章,我们详细介绍该框架以及每步中的特殊方法。我们在第4章中提供了实验结果,第5章讨论了参数的选择以及其计算复杂度,最后在第6章总结全文。

2.相关工作

在本此工作中,我们在解决单幅图像的盲去模糊问题,其中的卷积核是时变的且没有任何的特殊参数来源。因为我们的方法在局部区域使用了空间不变的盲去模糊方法,所以我们先简要回顾一下此类技术,主要是模糊核不受限于参数的技术。
一种常见的空间不变模糊类型是由于曝光期间相机的抖动而引起的运动模糊。文献[7]中的方法需要用户选取一个并未饱和的矩形块并初步猜测模糊卷积核的方向(水平或垂直)。优化过程基于贝叶斯框架,其中清晰图像的先验是梯度图像的高斯混合,模糊核的先验是指数分布的混合,该框架可以提高核系数的稀疏性。在文献[8]中,模糊核的模型也是指数分布的,但清晰图像的模型是全局先验和局部先验的乘积。全局先验是通过连接两个(线性(一次)或二次)的函数,在对数空间内对图像梯度分布进行建模来定义的。局部先验是通过高斯分布中模糊图像和非模糊图像间的梯度差异来定义的。该方法需要对模糊核进行初步估算,其可以是由用户给出。
上述方法需要用户输入模糊核的估计初始值。也可以使用真实(未模糊)图像来进行初值估计。在文献[9]中,通过使用边缘检测器找到边缘的位置与方向,再沿着边缘轮廓传播局部最大和最小像素值来形成图像的锐利边缘,从而可以预测一张模糊图像的“锐利”版本。预测出锐化图像后,便可在贝叶斯框架下使用高斯先验,通过核梯度和噪声项进行核估计。在文献[10]中,通过应用双边滤波,冲击滤波和梯度幅度阈值估计来消除估计中的小梯度,从而预测出初始的非模糊图像。通过L2正则化约束的最小二乘法可以迭代更新内核和清晰图像。在迭代过程中,梯度幅度阈值会被降低以期在估计中包含更多的梯度值。文献[11]中的方法的第一步也是使用带有冲击滤波器的尖锐边缘构造,选择有效边缘,并使用最小二乘法进行粗略的核估计。第二步是使用选定的区域和L1正则化来细化粗核估计。最后,使用全变分(TV)——L1方法对图像进行反卷积。除了使用稀疏性促进全变分和L1范数正则化外,文献[12]中还探讨了使用框架(framelets,用于图像)和曲线(curvelets,用于模糊核)等的使用。文献[13-15]中还有一些在不同模糊条件下的多张图片的空间不变盲图像去模糊的方法。
除了将相机抖动建模为二维平面运动外,还可以使用三维相机运动模型。文献[16]中考虑了相机围绕其光学中心的三维旋转(旋转、俯仰和偏航(左右))引起的空间变化模糊问题。参数化模糊模型被视为从三维旋转中单应性变换得到的线性组合,其用近似边缘化和最大后验方法来处理模糊图像。除了三维旋转外,文献[17]中还使用滚动(Z轴旋转)和面内(XY)平移的方式。在文献[2]中,不再是将单应性用于锐利图像,而是对单像素网格点进行单应性变换以得到基础模糊核。在此基础上可以对内核进行线性组合以生成由于相机抖动产生的空间变化模糊,从而产生有效的算法。还有基于硬件的方法,文献[18]中使用了智能手机中内置的惯性传感器(陀螺仪传感器)用于精确的模糊核估计。
文献[19]中考虑了旋转模糊。首先预测旋转物体或相机所产生的透明度贴图;然后使用透明度贴图估算其旋转运动的参数。文献[20]中提出了另一种基于透明度的方法,其使用文献[7]中的方法获得模糊区域的模糊核,然后使用Richardson–Lucy算法对其进行反卷积。
一些空变去模糊方法局限于离焦模糊,即其内核形状是固定的,但其尺度随深度而变化。文献[21]中匹配了具有相似内容但离焦模糊程度不同的图像块;对于具有相似内容的图像块,同伙使用离焦模糊较少的图像块对具有较多离焦模糊的图像块进行去模糊。该方法要求柑橘离焦量对输入图像进行分割,离焦量是通过优化确定高斯核的比例来决定的。在文献[22]中,首先通过局部对比度测量以完成分割,然后使用马尔可夫随机场传播和图分割技术对深度图进行细化。文献[23]使用局部对比度测量引导滤波生成模糊图[模糊映射?](即高斯核尺度图[高斯核尺度映射?]);然后使用L1-L2优化,用不同的高斯核对输入图像进行去模糊,以获得多个去卷积图像,最后使用模糊图将他们合并成单个图像。文献[24]中给出了另一种方法,该方法使用局部方差进行尺度估计,并使用截断约束的最小二乘法来完成恢复。结果表明,模糊核尺度识别是空变离焦去模糊的关键部分。文献[25]中的研究还表明,使用编码孔径代替传统的全开放孔径,可以提高尺度识别的性能。
有一些方法是根据模糊线索对图像进行第一次分割。文献[26]中依据局部功率谱、梯度直方图、最大饱和度和局部自相关等特征,使用贝叶斯分类器分割出图像的清晰、线性运动模糊和离焦模糊区域。文献[27]中使用了子带分解获得的特征进行分割,这些特征揭示了小邻域被候选模糊核模糊的可能性,这仅限于特定长度的水平和垂直盒式滤波器。文献[28]假设在非模糊背景中存在单个模糊物体,且其沿某一方向匀速运动。首先基于图像的导数对图像进行分割,确定模糊区域中核的大小与方向,最后使用Richardson-Lucy算法对模糊区域进行反卷积。文献[3]提到了在期望最大化框架中显示提取深度图、参数模糊核估计以及每个深度的反卷积。在文献[29]中,清晰图像和运动方向同时通过TV-L1模型进行估计。运动流估计的正则化结合了边缘图,因此可以保持清晰的运动边界。局部模糊核定义为线性核,其方向和长度由运动流确定。
基于块的核估计和去模糊也是一种可行的办法。文献[30]中首先估计了局部区域的内核。其假定相邻的内核间具有相似的模糊结构。EMD距离(Earth mover’s distance)用于测量内核块之间的相似性。最后,正确的内核不变,错误的内核被替换为相邻的内核。文献[31]中使用了双边滤波和冲击滤波来估计清晰图像;估计局部模糊核的同时提高相邻内核间的平滑度;识别出不良的内核估计值并用相邻内核替换。文献[32]中利用对应图像区域的信息及其与相邻内核的关联性,对初始局部模糊内核估计值进行了修正。
近来,一些方法中将卷积神经网络(CNNs)用于动态场景的去模糊中,如文献[5,33]。文献[33]将模糊的输入图像划分为一组重叠的块,然后使用CNN在块级预测运动模糊核。为了学习预测运动分布的有效特征,该方法通过离散化运动空间,即运动矢量的长度和方向的范围,产生一组候选的运动核。最后,使用马尔科夫随机场模型,将块级运动核融合到图像的密集运动核场中。该模型可确保为每个像素通过CNN估计得到具有较高置信度的运动核,并且可以提高附近运动核的平滑度。在文献[5]中,为了避免阐释与核估计相关的人工痕迹,模糊数据集的生成和清晰图像的估计均采用了无模糊核的方法。为了模拟模糊过程,该方法使用高速摄像机连续拍摄清晰帧,然后随时间进行合并。为了直接从模糊输入中恢复清晰图像,其提出了一种多尺度损失的CNN模型。在多尺度损失方法中,每个中间输出都是所对应尺度的清晰图像,因此大大提高了收敛性。这些基于学习的方法可以处理多种类型的模糊,但其有效性在很大程度上取决于训练数据的多样性和模型拟合的成功与否。
在本文中,我们提出了一种但图像盲反卷积框架,其中的模糊是空变的、非参数的。其对图像中的模糊核没有类型和数量的限制。该算法能有效的识别模糊核,并使用均值漂移聚类将图像划分为均匀的模糊区域,最终通过图像去模糊和融合产生清晰的图像。该框架的初步版本已作为会议论文发布,见文献[34]。本文对该方法做了实质性的改进,包括改进的核估计方法和更好的聚类方法(使用均值漂移聚类代替K均值聚类,因为后者需要用户输入聚类个数)。我们将提出的方法与文献[34]中的方法进行了比较,并提供了与文献中其他知名方法的视觉和定量比较。

3.模糊核估计和去模糊框架

我们提出的框架有三个主要步骤:(1) 图像块模糊核估计;(2) 使用核聚类以优化模糊核;以及(3) 通过图像融合进行空变去模糊。图1给出了这些步骤的说明。
图 1 对提出的空变去模糊框架的说明。对于每个图像块,可以估计其模糊核。然后将内核聚类以确定主簇。便可获得核簇的对应图像区域。对于每个图像区域的内核进行精确估计。使用每个内核对整个输入图像进行去模糊以获得一组去模糊图像。然后对去模糊图像进行融合以生成清晰图像。

3.1 图像块模糊核估计

第一步是为了估计输入图像中的局部模糊核。为了估计像素所在处的局部模糊核,这里选择了像素周围的一个小区域,采用空间不变的模糊核估计方法。在我们的方法中,我们采用了文献[10]中提出的粗模糊核估计方法,该方法可以合理快速的以可接受的精度计算模糊核。该方法被用于每个图像块 B p B_p Bp(来自模糊输入图像 B B B)以获得清晰图像 I p I_p Ip和模糊核 k p k_p kp。每个图片块不必是重叠的;我们使用滑动窗口的方法,步长为图像块大小的四分之一。

3.2 使用核聚类以优化模糊核

从图像块估计的局部模糊核并不一定都是准确可靠的。一些图像块可能来自于存在多种内核的过渡区域;一些图像块可能来自于纹理强度不足以产生精确核估计的区域。我们提出对估计的模糊核进行聚类,以确定图像中的主要模糊,并舍弃掉不可靠的核。核聚类后,对应的图像块与特定的内核簇相组合以形成该聚类的较大区域。使用较大的区域可以获得更准确的内核估计。
在没有图像模糊核数量的先验知识的情况下,我们使用文献[35]中提出的均值漂移聚类方法。聚类过程从内核空间中随机选择的点开始。平方和之差小于固定带框的内核估计值将加入到簇中。随着新的点的加入,簇的质心(centroid)得以更新。随着质心的更新,新的点被加入到簇中,然后重复该过程直到收敛。最后,如果两个簇的质心之间的距离小于带宽的一半,则检查这些簇能否合并。具有均匀模糊核和足够的内部纹理有望产生良好的核估计;因此它们也更有可能形成可靠的集群。具有不均匀模糊或纹理不足的图像块的核估计一般较差,且不会与主簇聚合。
一旦获得了簇,便可通过组合聚类中与其核对应的图像块,将图像分割成具有均匀模糊的区域。为了产生更准确的结果,我们重新估计了新的图像区域组合 B ^ i \hat{B}_{i} B^

这篇关于[文献翻译] Space-variant blur kernel estimation and image deblurring through kernel clustering的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/852574

相关文章

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

欧拉系统 kernel 升级、降级

系统版本  cat  /etc/os-release  NAME="openEuler"VERSION="22.03 (LTS-SP1)"ID="openEuler"VERSION_ID="22.03"PRETTY_NAME="openEuler 22.03 (LTS-SP1)"ANSI_COLOR="0;31" 系统初始 kernel 版本 5.10.0-136.12.0.

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性