【经典文献】水下光学和声学成像：融合的时代？最新技术概述

本文主要是介绍【经典文献】水下光学和声学成像：融合的时代？最新技术概述，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文献名称：《Underwater Optical and Acoustic Imaging: A Time for Fusion? A Brief Overview of the State-of-the-Art》
作者列表：Fausto Ferreira, Diogo Machado, Gabriele Ferri, Samantha Dugelay and John Potter
作者单位：北约科学技术组织（NATO Science and Technology Organization，STO）海事研究和实验中心，位于意大利拉斯佩齐亚
发表会议：OCEANS 2016 MTS/IEEE Monterey
发表年份：2016年
DOI链接：10.1109/OCEANS.2016.7761354

摘要

水下光学成像存在物理介质固有的一些缺点，如光衰减和浑浊。声纳虽然通常分辨率较低，但可以避免这些问题。在水下应用中结合使用视觉和声纳数据的做法还不普遍，但研究人员对这一课题的兴趣与日俱增。不过，随着最近更高分辨率声纳系统的出现，结合/融合两种感知模式信息的方法可以改善水下成像，这对于自主导航、地图绘制和物体识别等应用具有特殊的意义。在本文中，我们将对这些系统的技术现状进行研究，并介绍文献中最相关的方法。

I. 引言

光学和声纳系统已广泛应用于水下领域，每种系统都可用于不同的应用领域，并因其各自的特点而适合不同的用途。然而，为了充分利用这两种感知模式的特点，我们需要利用每种模式在不同场景中的优势，同时考虑到它们可能影响其性能的特殊缺点。

基于视觉的传感器在自主水下航行器中得到了广泛的应用。光学传感器的价值来自于其高精细度，其中还包括色彩信息。在环境监测或地质勘测（如珊瑚礁监测）等水下应用中，色彩信息至关重要 [1]。光学相机提供的高分辨率数据在拼接[2]、运动估计[3]、船体检查[4]和考古调查[5]等应用中也非常重要。

然而，单目和双目光学系统都依赖于获得良好的跟踪特征，这意味着需要一个具有足够纹理的场景来提取这些特征。即使在有足够纹理的场景中，光衰减和水的浑浊度也会严重影响光学传感器的探测范围和性能。照明系统可以缓解这些问题。但是，如果照明不均匀，它本身就会迅速成为光学图像中的干扰因素，而且高质量的照明系统（成本、功率要求）也不适合许多应用。克服这一问题的一种方法是使用结构光来照亮成像区域[6]，然而，这种系统还不够紧凑，无法安装在一些自主潜水器（AUV）上，这就限制了它们的使用。另一个问题是，在水下环境中，当靠近海床移动或使用机械臂执行搬运任务时，淤泥或沙子会扬起，影响光学传感器的性能。

另外，声纳对这些问题更加鲁棒，但一般来说，与光学摄像机相比，声纳的分辨率较低，而且不能提供色彩。不同的声纳能提供不同的海底和沉没物体信息。例如，俯视多波束等剖面声纳可提供海底测深信息，而合成孔径声纳、侧扫声纳和前视声纳能产生类似图像的数据。不过，它们与光学相机还是有一些区别的。这些声纳的成像模型意味着具有相关高度的物体会产生阴影，这有利有弊。例如，声学阴影会因声纳视角的不同而大相径庭。另一方面，许多算法都试图通过观察高光及其相关阴影来识别声纳图像中的物体。与此同时，多径反射也会造成伪影，不过可以通过使用适当配置的声学系统来减少伪影。

光学相机的探测距离有限，需要靠近物体/环境，在理想条件下通常小于 20 米。声纳传感器的探测距离可以更远，不过必须在测距和分辨率之间做出权衡。例如，虽然某些声纳，如 BlueView P900（900kHz）的探测距离可达 100 米或更多（Reson SeaBat 工作在 200kHz 时的探测距离为 500 米），但其分辨率不足以识别物体。更高分辨率的声纳，如 Sound Metrics 公司的 DIDSON（频率为 1.8 MHz）或最近的 ARIS（也是 Sound Metrics 公司，频率为 3 MHz），都是专门为物体识别而开发的，它们提供的高分辨率数据（以毫米为单位）几乎可以与光学相机相媲美，但传感器必须靠近目标（通常小于 10 米）。

MHz范围内的新系统现在提供了一定程度的细节，使得以前的商业系统难以实现的创新方法(即图像拼接[7]，导航[4]，三维运动估计[8]和链式检查[9])得以实现。

最近，市场上出现了第一批 COTS 高频三维高分辨率声纳[10]-[12]，这些类型的声学相机可以直接对数据进行三维呈现。由于不再需要从二维视图重建三维视图，因此获得场景的即时三维表示可能会缩短任务时间，从而有可能改进航行器的实时数据处理和决策。不过，必须强调的是，即使声纳系统的细节水平有了突破性的提高，但仍无法提供视觉系统所能提供的细节。

正如我们所概述的，这两种传感器模式都有其内在问题，这些问题在某些条件下会降低或提高其适用性。因此，融合光学和声学相机数据是一种很有前途的方法，有望实现每种传感器模式的最佳效果，并提高整体感知能力。然而，能够解释在哪些条件下使用两种模式中的一种更好，或何时使用两种模式融合的理论结果仍有待充分开发。这方面的例子并不多，而且都是为了解决特定的问题。尽管如此，在处理此类任务之前，找出这些例子并概述最新进展还是很有帮助的。

本文的结构如下：第II节说明了一些数据融合的例子，以及融合声学和光学数据作为平衡传感器固有问题的一种方法的必要性。在第III节中，我们列举了在水下环境中结合光学和声学数据的一些最相关的科学工作。第IV部分总结了融合方式带来的一些开放性课题。最后，第V部分得出一些结论并对未来工作提出建议。

II. 图像融合实例

数据和算法融合已在许多领域和应用中使用，包括多传感器和传感器内部融合。例如，许多应用会融合基于相同数据的不同分类器的结果 [13]。对于多传感器数据融合，可以在文献中找到许多应用于机器人和其他领域的例子。除了 GPS 和惯性导航系统 (INS)、INS 和多普勒速度记录仪 (DVL)、INS 和声学定位系统等更传统的导航数据融合方案之外，还有许多涉及成像传感器的融合方案：激光和光学、声学和光学、雷达和光学 [14]。有关水下自主导航的多传感器数据融合的精彩综述，可参阅 [15]。围绕声学和光学数据的融合，在许多不同的应用领域都有实例，从城市环境中的自动打斗探测[16]到可穿戴式心率监测器[17]或有机化合物探测[18]。其他应用包括武器定位 [19] 或医学光声成像 [20]。

在水下领域，结合声学和光学数据的想法并不新鲜。早期的尝试[21]使用铅笔束(pencil beam)声纳和激光三角测量系统建立了一个架构，但没有展现融合结果。创建有效的算法以探索光学和声学传感器模式的结合，收集每种模式的最佳数据，可以看作是水下环境数据收集的踏脚石。

A. 为什么融合光学和声学数据？

之所以需要将声学和光学数据结合起来，是因为每种传感器都存在一些问题，而这些问题可以通过融合不同感知模式产生的数据加以解决。在水下环境中，这两种信息可视为互补。在纹理和/或浮雕不突出的情况下，使用视觉和声纳数据可以提供更多的环境信息。在这种情况下，光学摄像机的工作范围有限，受到光衰减和水浊度的限制。

众所周知，光衰减限制了光学相机在没有人工照明的情况下使用的深度。在使用人工照明时，由于其缺乏均匀性，在图像处理中需要解决一系列新问题。水质浑浊是另一个无法避免的问题，其特征取决于环境的类型，有些地点的水质清澈，而其他地区则可能有浑水、海雪（大量悬浮颗粒集中在一起，会散射光线并造成视觉干扰）等。此外，在水下环境中执行操作任务时，泥沙可能会增加水的浑浊度。相比之下，声纳没有光衰减问题，且受水体浑浊度的影响较小。由于声波很容易穿透浑浊的水体，因此声纳可以在更高的范围内工作。不足之处在于，声纳的分辨率通常低于光学传感器，因为声波的波长比光长（至少大 10^3 倍）。

本文的目的是简要介绍目前最先进的相关方法。使每种传感器模式适合使用和/或适合融合的操作条件并没有得到很好的定义。大多数研究都是为了解决某个特定问题，并没有建立一个通用的理论框架来确定何时使用某种传感器或其他传感器，或将它们进行融合。这里的目标是概述目前的技术水平，在未来的工作中，我们计划致力于建立一个框架。

新型光声系统有许多应用领域，如水下考古、港口检查、船体检查、石油和天然气以及军事领域。

III. 最新方法

光学和声学数据的结合/融合可以在不同层次上、使用不同的传感器进行。使用回声测深仪和照相机可能是比较简单的方法，如文献[22]中介绍的将卫星收集到的光学数据与回声测深仪收集到的声学数据相融合以绘制珊瑚礁栖息地的工作，回声探测仪获得的信息被用来对卫星数据进行深度校正。同样，文献[23]中介绍的工作在后处理中将回声探测仪和光学相机的数据关联起来。在这两种情况下，都没有明确的特征匹配，事实上，两篇论文都使用了结合光学和声学数据的术语，而不是融合。

数据融合更为复杂，涉及传感器间的直接融合或更高层次的数据融合（在特征层甚至分类层）。虽然关于传感器间融合的研究很少[24]，但在文献中可以找到一些侧重于高层数据融合的例子，并在下面的小节中进行介绍。

A. 声学阵列与光学系统融合

待添加翻译

B. 铅笔束声呐与光学系统融合

待添加翻译

C. 多波束声呐与光学系统融合

早期研究将高分辨率照片与低分辨率声学测深数据相结合 [29]。后来，Sulzberger 等人[30] 提出了一项将磁传感器、底视声纳和光学相机的数据融合到扫雷应用中的工作。虽然缺乏关于融合的详细描述，但融合是在分类器层面上进行的，这意味着只将每个分类器的结果结合在一起，而没有进行明确的特征匹配。

Hurtos [31] 是少数几个解决了光学声学外参标定问题的作者之一，这项工作的基础是将刚性耦合的多波束声纳与照相机融合在一起。标定方法受光学-激光系统外参标定技术的启发，并在三维场景重建的模拟环境中进行了测试，结果良好。为收集应用该技术所需的标定数据，需要移动多模态系统，以便在不同位置和方向上观察传统棋盘式平面目标，使目标同时出现在两个视野中。作者对该系统进行了仿真测试，传感器直接对准航行器下方的部分，并重建了 2.5D 海底。

Kunz [32]将俯视多波束和光学摄像机的数据融合在一起，将这两种模式的导航信息纳入姿势图中，从而估算出 AUV 的轨迹。关于导航问题，这两种模式是互补的，因为它们不仅可以改进姿态图估算，还能在不同条件下提供良好的反馈。此外，所提出的系统还能在多波束测深图上叠加照片mosaic。

Inglis[33]介绍的三维混合地图也是通过融合多波束下视声纳和立体光学相机而构建的。与 Kunz 一样，作者在提议的 SLAM 框架中也使用了姿态图。在这种情况下，光学模式也用于估算测深数据。全局地图被划分为网格单元。每个单元格都填充了一种传感器模式的数据。为了选择在每个单元格中使用的数据模式，Inglis考虑了一些指标，如异常值或单元格错位，并用错误最少的数据模式填充。在所述设置中，双目光学数据通常是首选。结合光学和声学数据，Inglis 能够绘制出比使用单一模式更一致的测深图。

D. 侧扫声呐与光学系统融合

待添加翻译

E. 前视声呐与光学系统融合

Kalyan 等人的初步研究[35] 通过使用带有 INS、机械扫描前视声纳和光学摄像机的自动潜航器，对光学摄像机和声学摄像机的结合进行了研究。在该系统中，光学传感器用于估计自身运动并生成池底的二维mosaic。前视声纳与惯性数据和顺序扫描相结合，用于绘制测试环境的地图。根据单个传感器的性能，作者得出结论，未来将光学和声学传感器模式相结合，将提供更可靠的位置估计和更鲁棒的水下导航。不过，没有进行光学和声学数据融合。

Hover 等人[36] 将声学摄像机和光学摄像机的数据结合起来，改进了应用于船体检测的基于 SLAM 的导航。在这种情况下，来自不同传感器模式的特征并不相互匹配，而只是在各自的传感器层面上匹配。

另一项结合光学和前视声纳信息的研究成果见 [37]。在这种情况下，光学数据和声纳数据都被用于目标跟踪。每个传感器估算出的目标位置被融合，但图像本身没有融合。同样，这项工作也没有进行显式融合或外参标定。

而Negahdaripour 的研究侧重于在特征层面显式融合光学和声学数据。该研究小组提出的几种方法有助于我们探索前视声纳和光学摄像机的融合。这项多模态数据融合工作的目的是找到在水下使用高频前视声纳进行三维重建的一致方法。在文献[38]中，Negahdaripour 推导出了由光学摄像机和前视声纳组成的光声系统的外极几何和立体三角测量方程。这些方程通过仿真和室内水池中的平面网格光声图像进行了验证。后来发现，在短距离和清澈水域中，该系统与传统的光学立体系统相比精度类似[39]。然而，随着浊度的增加和距离的拉远，融合系统的精度要好于光学双目系统，后者的精度迅速下降。

文献[40]提出了一种对此类系统进行外参标定的方法，并使用合成数据和真实数据得出的结果验证了理论接法，作者建议增加更多标定网格视图，以进一步提高解决方案的准确性。Negahdaripour 在文献 [41] 中使用视觉和前视声纳对水下航行器进行运动估计和目标定位。两种传感器模式跟踪到的特征都是独立解析的，没有关联。与只使用其中一种模式的方法相比，这种方法不仅改进了运动估计，还有助于克服单目视觉固有的尺度模糊性。这种方法还允许在更广泛的能见度条件下进行三维估计。

最近，Babaee 等人[42] 提出了一种利用关联的 DIDSON 和光学摄像机图像，从遮挡表面法线进行三维物体重建的方法。为了解决多模态配准和匹配问题，作者使用了两种模态下都更容易识别的物体表面轮廓。与目标距离相比，系统的基线可以忽略不计，利用这种配置，作者能够重建物体。在浊度较高的情况下，所提出的方法可以生成比单纯使用光学传感器技术更好的物体三维模型。

最后，在文献[43]中，同一作者使用了类似的遮挡轮廓配准方法，利用马尔可夫随机场（MRF）概率方法估计出三维密集距离图。该距离图可用于光学图像去雾。作者将他们的方法与其他四种算法以及不同浑浊度下的图像进行了比较。这项研究是一个很好的起点，有助于进行更定量、更精确的研究，将融合方法与不同的浊度水平联系起来。

F. 三维声呐相机与光学系统融合

待添加翻译

IV. 待解决问题

在几个尚未解决的研究课题中，我们确定了两个需要进一步解决的主要课题：具体来说，就是光-声外参标定和光-声特征匹配。

A. 光-声外参标定

为了提高数据融合的性能，需要对光-声系统进行外参标定。尽管这是光学或纯声呐双目立体系统的常见程序，但本综述中介绍的一些工作并未进行校准。然而，拥有将特征从光学坐标系映射到声纳坐标系的旋转矩阵和平移向量有助于在求解多模态特征关联时利用外极几何。遗憾的是，这种校准方法并不简单，因为它必须考虑到每个传感器的测距范围有很大差异，而且目标的材料和形状必须在两个传感器的数据中都易于识别。这些都是光-声系统外参标定过程中需要处理的问题[24]。

B. 光-声特征匹配

要确定最合适的特征类型和最合适的特征匹配算法，还需要做更多的工作。与更传统的光学立体视觉一样，使用光声系统进行三维重建需要在两种传感器模式中识别相同的特征。视觉和声纳之间的特征匹配比较困难，因为每个传感器的成像模型和分辨率不同，对同一特征的表现方式也不同。一般来说，光学（纹理）和声学（距离）特征之间没有对应关系。一些学者 [43] 通过使用两种传感器模式中都有的轮廓和边缘等结构特征来解决匹配问题。其他人则使用ICP算法结合3D点云 [24] 或3D特征加工 [46]。其他工作则在不明确配准的情况下，利用数据的地理参照[22]、[34]叠加数据。在选择最佳特征类型和特征匹配类型方面还需要做更多的工作。

V. 总结与结论

本文简要概述了光学-声学系统的最新发展。这些系统的出现是为了避免每种传感模式固有的问题。通过结合光学和声学系统，可以利用两种传感模式的优势。此外，它们之间的互补性还能在多种情况下提高性能。这一发展之所以成为可能，主要得益于高分辨率声纳（包括剖面和成像）的技术进步。对这一课题的研究兴趣与日俱增，多个研究小组正在这一新兴领域开展工作。多波束下视声纳、前视声纳和三维声纳可与光学相机融合，以实现不同的目标。许多工作建议在后处理中通过简单的数据叠加或三维点云配准将二维或三维数据结合起来。其他研究则将测深数据与光学数据相结合，用于导航目的。然而，很少有研究解决了标定光声系统和关联特征匹配的复杂问题。我们认为，实现光声系统的正确校准对提高性能大有裨益。本文从最先进的技术中选取了一些实例，展示了广泛的应用和方法。这一领域的研究正日趋成熟，但要使这一领域在水下界得到普及，还需要付出更多努力。最近的高分辨率成像声纳（包括三维声纳）开辟了未来的研究途径，应能促进这一领域的发展。与此同时，理论研究仍然缺乏，作者未来的工作应在这一领域做出贡献。

这篇关于【经典文献】水下光学和声学成像：融合的时代？最新技术概述的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！