论文阅读《FENET: FOCUSING ENHANCED NETWORK FOR LANE DETECTION》

2024-03-11 07:20

本文主要是介绍论文阅读《FENET: FOCUSING ENHANCED NETWORK FOR LANE DETECTION》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ABSTRACT

受人类驾驶专注力的启发,这项研究开创性地利用聚焦采样(Focusing Sampling)部分视野评估(Partial Field of View Evaluation)增强型 FPN 架构和定向 IoU 损失(Directional IoU Loss)等技术增强网络,有针对性地创新解决了自动驾驶精确车道检测的障碍。实验证明,我们的 "聚焦采样 "策略与统一方法不同,强调重要的远距离细节,显著提高了对安全至关重要的基准和实际弯道/远距离车道识别精度。FENetV1 通过模拟驾驶员视觉的增强隔离透视感知上下文,实现了最先进的传统度量性能,而 FENetV2 则在建议的部分场分析中被证明是最可靠的。因此,我们特别推荐将 V2 用于实际的车道导航,尽管它在标准的全图像度量上有一定程度的下降。未来的发展方向包括收集道路数据和整合互补的双重框架,以便在人类感知原理的指导下取得进一步突破。代码可在此处获取。

INTRODUCTION

本研究描述了驾驶过程中人类视觉焦点与 2D 摄像机捕捉到的视角之间的差异。图 1 显示,经验丰富的驾驶员会优先注视远处的道路区域,这一策略对于预测道路几何形状和转向调整至关重要[1, 2, 3]。这种行为在弯道附近尤为明显,包括凝视前方 1-2 秒钟的关键预览区域[2, 4]。受这些人类聚焦模式的启发,我们的研究引入了 "聚焦采样 "方法,旨在增强对远处车道边界标记的检测和回归,这是高速自动驾驶中的一个关键挑战。此外,我们还提出了 "部分视野评估 "方法,以提高实际场景中的准确性评估,强调前方路段与驾驶员关注点的一致性。

在车道检测领域,CLRNet [5] 和 GANet [6] 等流行模型依赖于统一的多尺度特征金字塔网络(FPN)架构。然而,这些模型并不能充分捕捉全局空间环境,而全局空间环境对于详细描述安全导航所需的关键道路环境至关重要。尽管变换器(Tansformer)以其全局语义处理能力而著称[7],但在识别细长的车道标线时,其效率就会降低,因为在这种情况下,主要线索非常稀少。车道边界还显示出巨大的尺度变化,并受到不同照明和表面条件的影响 [8]。为了克服这些挑战,我们的研究在 FPN 中引入了位置或标准非局部块(either positional or standard non-local blocks),用广泛的全局上下文信息丰富了 FPN。此外,随后的实验证明,"方向性 IoU 损失 "不仅能与定位非局部块相媲美,甚至还能超越定位非局部块带来的优势。

这项研究有四项创新:(1) "聚焦采样",一种优先考虑较小和较远车道细节的训练策略;(2) "部分视野评估",对真实世界应用至关重要的前方路段准确性的新指标;(3) 增强型 FPN 架构,根据需要结合位置非局部块或标准非局部块( either positional non-local blocks or standard non-local blocks);(4) "方向性 IoU 损失",一种解决较远车道方向差异的新型回归损失。FENetV1 采用位置非局部块,通过专注于与视角相关的语义,在传统指标上取得了最先进的结果。另一方面,FENetV2 将坐标建模整合到 "方向性 IoU 损失 "中,在远距离车道的边界定位精度方面表现出色。虽然与 FENetV1 相比,FENetV2 在常规指标上可能略逊一筹,但它在远距离车道回归方面的专长使其更适合实际导航。从本质上讲,这项开创性的工作主张加强以回归为重点的模型和评估,采用有针对性的技术,优先表示和评估对准确、安全的自主车道检测至关重要的道路细节。

RELATEDWORKS

基于深度学习的车道预测方法可分为语义分割法、基于锚点的方法和基于参数的方法。语义分割方法(如 SCNN [9]、SAD [10] 和 Curvelanes-NAS [11])使用像素级预测来提高准确性,但计算复杂度较高。基于锚点的方法,如 CLRNet [5]、GANet [6]、E2E-LMD [12]、IntRA-KD [13]、UFLD/UFLDV2 [14,15]、CondLaneNet [16] 和 LaneATT [17],速度较快,但在复杂场景下准确性较低。基于参数的方法,如 "通过曲线建模进行高效车道检测"[18] 使用曲线锚点来提高效率,但缺乏最佳准确性。我们在先前工作的基础上,解决了准确性和复杂性方面的限制。

METHODOLOGY

Focusing Sampling

Motivation. 现有的均匀点采样策略未能正确权衡对稳健车道检测至关重要的视觉视角。这些方法对所有图像区域一视同仁,尽管车道在远处的消失点包含更有价值的语义信息,尤其是沿曲线[19]。为了解决在理解即将到来的车道方面存在的不足,我们提出了一种聚焦采样技术,其灵感来自于熟练的驾驶员对道路远处的视觉关注。就像驾驶员通过注视前方来预测弯道[1]一样,聚焦取样技术在强调远处细节的同时,仍会检查附近的点。如图 3 所示,这种新颖的方法能正确反映完整的车道几何形状,并能处理复杂的转弯和弯道情况。均匀采样有可能丢失对车道预测至关重要的数据和语义,而聚焦采样可以有针对性地改变均匀采样的局限性。

Formulation. 在均匀采样的基础上,我们提出使用基于对数的聚焦采样,附录 A.1 图 8 对此进行了直观的比较。这种聚焦抽样的计算公式为

 其中 a_{n}=\frac{1}{N_{\text {sample }}-1} * i\quad \text { feature }是网络中的特征点编号。为了在此范围内生成聚焦采样点,需要对特征分布进行对数变换,将原始特征点映射为整数采样点。H表示图像高度,N_{sample}是采样点的数量,而 a_n表示在i个数据点上在 0 到 1 的范围内生成的的算术序列。这种对数方法可以筛选出有价值的语义信息。由于对数离散法的应用可能会产生重复的整数值,因此后处理包括样本点的去重。关于特征离散化过程和结果分布的完整细节,请参见代码和附录图 8。

Positional Non-local Block and Position Enhanced
FPN structure

Motivation. CLRNet 主要采用特征金字塔网络(FPN)架构进行车道检测[5]。虽然 FPN 擅长多尺度特征提取,但也有一定的局限性。具体来说,较深的网络层强调语义表征,而较浅的网络层则优先考虑细粒度细节,最终导致对微小目标的检测效果不佳。为了增强 FPN,我们受 PANet 和 Mask R-CNN 的增强功能[21, 22]启发,引入了一种吸收非局部块的结构[20]。这种方法为网络注入了上下文线索,同时保留了网络的深度并增强了其多尺度特性。此外,基于车道标记目标的独特性,我们提出了位置增强型 FPN(PEFPN)模块,以实现全局语义与车道坐标建模的紧密结合。如图 2 所示,位置非局部块(在附录 A.1 图 7 的基础上扩展)将位置信息直接注入增强型 FPN 的多尺度特征图中。

Formulation. 坐标图方程利用空间索引ij来索引特征图中的每个像素位置,其中i在高度维度H上垂直迭代,j在宽度维度W上水平迭代,具体来说,i的范围从 1 到H,索引每一行,而 j的范围从 1 到W。x坐标图计算如下:

x_{\text {coord }}(i, j)=\frac{2(j-1)}{W-1}-1, \text { for } i=1 \ldots H, j=1 \ldots W

类似地,y坐标映射为:

y_{\text {coord }}(i, j)=\frac{2(j-1)}{H-1}-1, \text { for } i=1 \ldots H, j=1 \ldots W

这种位置非局部块提供了一组丰富的特征,既能编码全局上下文,也能编码精确的空间位置。此外,我们还在此架构的顶部上应用了所提出的聚焦采样技术,以便在特征提取过程中选择性地集中于车道片段。这些样本为追踪车道坐标和方向性提供了强有力的线索。FENetV1 融合了 PEFPN 和 Focusing Sampling,通过直接坐标注入和车道位置引导的 Focusing Sampling 统一了精细坐标建模。附录 A.1 中的烧蚀实验表明,PEFPN 是根据 FENetV1 中引入的车道检测聚焦视角设计的独特架构。

Focusing Enhanced Network

Motivation. 在 FENetV1 中,PEFPN 的制定取决于位置非局部块和增强型 FPN 架构的综合设计。利用车道检测目标的独特性,基于坐标图信息设计了位置非局部块,提供了有效的特征提取。然而,消融实验(详见附录 A.1)显示,在没有聚焦采样的情况下,采用标准非局部块而不是位置非局部块可获得类似的性能。这就验证了来自车道坐标的方向线索不一定要在非局部位置注入。因此,在提高网络效率的指导下,我们设计了 FENetV2,以进一步研究使用标准非局部块和定向 IoU 的聚焦增强型 FEFPN(FEFPN)。因此,在设计 FENetV2 的过程中,我们通过标准非局部块、聚焦增强模块和定向 IoU 方案探索了更有效的替代方案,以在提高计算节俭度的同时保持功效。

FEFPN Structure. 如图2所示,大多数架构配置都与 PEFPN 非常相似,区别在于在构造内部层(Inter0、Inter1、Inter2)期间使用标准非局部块。

Lane Directional Intersection over Union (D-IoU)
Module

Motivation. LineIoU 只考虑距离而不考虑方向关系[5]。我们的 D-IoU 模块(图 4)可消除方向差异,以提高准确性。

Formulation. 如图所示,D-IoU 包括位置 IoU(P_{IoU})、方向左 IoU(DL_{IoU})和方向右 IoU(DR_{IoU})。P_{IoU}是 CLRNet 中的Line IOU 模块。DL_{IoU}DR_{IoU}分别表示到地面真值点的左侧和右侧的距离IoU。DLIoU_{i}

D L I o U_{i}=\frac{d_{i}^{L O}}{d_{i}^{L U}}=\frac{x_{i}^{t a r}-\max \left(x_{i}^{\text {pre }}-m, x_{i}^{t a r}-m\right)}{m}

m表示每个点的像素扩展量。扩展 m个像素后,x_i^{pre}-mx_i^{pre}+m别给出预测点的左坐标和右坐标。DRIoU_{i}DLIoU_{i}的镜像映射,定义相似,不再赘述。

D-IoU使用系数α、β、γ组合这些:

D-IoU=\alpha (1-P_{Iou})+\beta (1-DL_{IoU})+\gamma (1-DR_{IoU})

这为精确的车道对齐提供了距离和方向精度。

Training and Inference Details

Training Loss. FENetV1中的总训练损失是几个损失分量的加权组合:

L_{totalv1}=w_{p_{iou}}L_{P_{iou}}+w_{cls}L_{cls}+w_{xytl}L_{xytl}+w_{sc}L_{sc}

L_{P_{iou}}是 PIoU 损失,由 w_{P_{iou}}加权,使预测结果与地面实况一致。L_{cls}是分类的焦点损失(focal loss)。L_{xytl}是预测起点、角度和车道长度的回归损失。L_{se}是语义分割损失。权重 w平衡了各部分的贡献。FENetV2 的训练损失为

L_{totalv2}=w_{D_{iou}}L_{D_{iou}}+w_{cls}L_{cls}+w_{xytl}L_{xytl}+w_{sc}L_{sc}

其中,L_{D_{iou}}是 D-IoU 损失,由 w_{D_{iou}}加权,使预测与地面实况的位置和方向保持一致。

Inference. 为了得出最终的车道检测结果,我们采用了非最大抑制(NMS)来去除重叠预测,只留下最优车道[17]。我们还评估了一种无 NMS 方法,即在一对一分配时将 top-k 设置为 1。这些改进提取了最准确的车道。

Augmenting Evaluation via Partial Field of View

车道检测模型的现有评估指标在满足实际驾驶需求方面存在严重的局限性。像素准确性和标准 mAP 等指标对车道标记预测中的所有像素一视同仁,尽管它们在实际安全影响方面存在显著差异。然而,如前所述,经验丰富的驾驶员会优先注视远处的道路区域,这一策略对于预测路径几何形状和必要的转向调整至关重要。为了解决目前的评估与驾驶所需的车道理解之间的不匹配问题,我们建议通过部分视野度量(Partial Field of View metric)来增强评估。这种实用方法在对无关的上部内容进行预处理裁剪后,将下半部分图像细分为部分视图(fractional views)。如图 5 所示,通过量化关键远端部分视图( key distal fraction views)(顶部 1/2 和顶部 1/3 部分)的精度,该指标可以更好地衡量与人类驾驶员视线相对应的最关键车道区域的精度。部分视野分析更接近人类感知。它是一种可解释的增强方法,通过道路注视模式的实际视角来衡量车道检测能力。

EXPERIMENT

Datasets

在本实验中,我们使用了车道检测中最常用的数据集: CULane [9] 和 LLAMAS [23]。CULane 是目前车道检测中最具挑战性的大规模数据集之一。LLAMAS 是一个全面的车道检测数据集,包含 100,000 多张图像。LLAMAS 中的车道标记采用高精度地图进行自动标注。

Implementation Details

本研究主要使用 DLA34 作为预训练的骨干网络[24]。在 DLA34 骨干网络下,CULane 数据集设定为迭代 15 个历元,而 LLAMAS 设定为 20 个历元。初始学习率设置为 1e3,优化器为 AdamW,功率设置为 0.9。车道先验数 (N) 为 72,采样点数为 36。P_{IoU}DL_{IoU}DR_{IoU}的扩展像素(m)均设为 15。分配成本系数设为 w_{D_{iou}}= 1。

Evaluation Metrics

F1 and mF1. 在 F1 检验中,计算预测结果与地面实况之间的 IoU,当 IoU 临界值大于 0.5 时,则认为是真阳性。F1 的定义是

F_1=\frac{2\times Precision\times Recall}{Precision\times Recall}

关于 COCO 检测指标,我们主要继续使用 mF1 指标作为 CLRNet 的后续指标,但不仅要衡量整体性能,还要衡量场景性能,从而对预测精度和车道特征捕捉进行更精确的分析。mF1的定义如下

mF_1=(F1@50+F1@55+\cdots +F1@95)/10

其中,F1@50F1@55\cdots F1@95分别对应 IoU 临界值为 0.5、0.55、......和 0.95 时的 F1 测试值。这是在不同场景下更精确的测量值,对优化迭代有显著效果。

Comparison with State-of-the-Art Results

Performance on CULane. 我们提出的 FENet 在 CULane 基准上取得了最先进的结果,超过了之前的方法。如表 1 所示,FENetV1 的F1@75得分为 63.63,mF1为 56.27,比 CLRNet 的 F1@75 高 0.7,mF1高 0.63。FENetV2 的 F1@75 分数为 63.50,mF1为 56.17,这表明 FENetV1 和 FENetV2 的车道检测精度很高,尤其是在更严格的评估阈值下。

Performance by Field of View. 如表 2 所示,与最先进的 CLRNet 模型相比,FENetV2 在整个视野、上半视野和上三分之一视野的弯道和远处车道检测方面都有显著改进。重要的是,在绝大多数驾驶场景中,弯道特征主要是从远处反映出来的。因此,这些改进主要代表了对远处弯曲车道的感知能力的增强,这对安全驾驶至关重要。具体而言,如标有 * 的数据所示,FENetV2 在检测各自视场中具有挑战性的远处弯曲车道时,mF1分数分别高出 2.67、5.66 和 6.01。这凸显了 FENetV2 的 D-IoU 损失函数和 FEFPN 模块在精确识别棘手的远端和弯曲车道方面的特殊优势。附录 A.1 中的图 6 提供了一些辅助示例结果。

虽然 FENetV1 的 mF1 总分略高,但我们认为 FENetV2 更适合实际自动驾驶系统,而且更可靠,因为它专门用于远距离车道边界回归。准确定位前方车道线对于及时做出车辆控制反应至关重要,尤其是在车速较快的情况下。相比之下,虽然 FENetV1 的 PEFPN 在一般车道识别方面表现出优势,但在精确边界定位方面存在局限。总之,FENetV2 与之前的先进模型不同,它擅长远距离车道回归,因此在现实世界中表现出最佳的车道检测能力。对于需要瞬间反应的实际自主导航,我们强烈推荐使用 FENetV2,而不是现有的方法甚至是基准 FENetV1 模型。

Performance on LLAMAS. 如表 3 所示,本研究提出的创新 FENetV2 结构在 LLAMAS 上达到了新的技术水平,F1@75 得分为 85.63,mF1 得分为 71.85。这些主要评分参数结果均高于 CLRNet,其中 F1@75 分数比 CLRNet 高 0.3,mF1 分数比 CLRNet 高 0.64。这也表明我们的方法提高了车道检测的准确性。

CONCLUSION

受人类驾驶焦点的启发,本研究针对自主导航的车道检测挑战,率先推出了 "聚焦增强网络"、采样策略、优化损失计算和精细评估指标。实验证明,与现有的统一方法不同,强调关键的远距离几何细节不仅能显著提高基准精度,还能提高对安全至关重要的实际弯道/远距离车道识别能力。进步来自于模仿熟练驾驶员视觉模式的隔离透视感知环境。局限性提供了机会,包括完善注意力区域、探索丰富的坐标表征、收集实际驾驶数据进行分析,以及协调利用互补优势的双重框架--进一步推动现实世界的突破。有了模仿人类的视觉感知和理解能力作为指导,车道检测的前沿领域就能朝着实现可靠的自动车辆控制的方向快速前进。

APPENDIX

Ablation Studies

为了验证整个 FENetV1 和 FENetV2 模型的每个组成部分在整个实验中的贡献和作用,我们在 CULane 数据集上分别测试了每个创新方案,以显示其相应的性能。

Overall Ablation Study

通过消融研究,我们分析了附录 A.1 表 4 中建议的 FENetV1 架构,以分析 PEFPN、聚焦采样和 D-IoU 模块的贡献。基线 FENetV1 的 mF1 为 55.64。加入 PEFPN 和 Focusing Sampling 模块后,mF1 上升到 56.27,显示了它们在提供位置感知特征和强调困难示例方面的优势。然而,令人惊讶的是,在 PEFPN 和 Focusing Sampling 模块基础上加入 D-IoU 模块后,mF1 略有下降,为 56.04。我们假设,这种反直觉的结果是由于 PEFPN 的位置感知能力与 D-IoU 的方向编码之间存在功能重叠。具体来说,PEFPN 中的位置非局部块已经将坐标信息整合到了多尺度特征中。因此,D-IoU 的方向建模变得有些多余,并干扰了 PEFPN 的位置编码。PEFPN 对位置和方向的这种整合可能解释了为什么随后添加 D-IoU 会因功能重复而产生不利影响。

在附录表 5 中,对我们提出的 FENetV2 模型各组成部分的贡献进行了进一步的消融实验。基线架构的 mF1 为 55.64。加入 FEFPN 模块后,通过提供更丰富的多尺度特征,mF1 提高到 56.11。加入 "聚焦采样"(Focusing Sampling)模块后,通过强调坚硬的远端示例,mF1 进一步提高到 56.15。最后,用 D-IoU 损失替换 IoU 损失,通过编码方向线索将 mF1 提高到 56.17。这些稳定的改进验证了 FEFPN 处理上下文特征、聚焦采样处理远端车道以及 D-IoU 区分方向性的优势。I

总之,FENetV1 的消融研究表明,通过 PEFPN 使用位置感知表征的增强型 FPN,以及通过聚焦采样强调硬采样的互补优势,可将 mf1 提高到 56.27。然而,以位置非局部块为理念的 D-IoU 可能会与 PEFPN 中已编码的位置建模出现冗余,从而导致 mF1 性能略有下降。与此相反,在 FENetV2 消融实验中,每种成分都带来了稳定的 mF1 增强,这验证了它们在吸收丰富的多尺度特征、突出具有挑战性的区域以及在我们的 FENetV2 框架中嵌入方向线索方面的功效。尽管与 FENetV1 相比,mF1 略有下降,但手稿中的场景拟合精度却更胜一筹。这项分析对位置非局部块和 D-IoU 方案之间的架构权衡提出了建设性的看法。

Ablation Study of Focusing Sampling

为了进一步分析我们提出的聚焦取样技术的功效,我们在附录表 6 中对采用和不采用聚焦取样技术的模型进行了消融研究比较。以均匀采样为基准,模型的 mF1 为 55.64。用聚焦采样取代均匀采样后,模型的 mF1 稍微提高到 55.78,这表明聚焦采样在强调具有挑战性的示例方面具有优势。当与我们的特征增强型 FPN 模块结合使用时,聚焦采样的优势更加明显。在均匀采样的情况下,FEFPN 和 PEFPN 模型的 mF1 得分相近,均为 56.11。然而,加入聚焦采样后,它们的 mF1 分别提高到 56.15 和 56.27。这表明,聚焦采样通过将训练集中在最困难的远端区域,更好地利用了 FEFPN 和 PEFPN 提供的丰富车道特征。值得注意的是,在没有聚焦采样的情况下,FEFPN 和 PEFPN 达到了相同的 mF1。这表明,在统一聚焦的情况下,两种 FPN 变体都无法充分利用其学习到的特征。然而,通过集中注意力,PEFPN 整合了位置信息,从而提高了性能,超过了 FEFPN。总之,这些消融研究验证了聚焦取样可以有效地补充高级 FPN 模块,实现对困难例子的集中学习。当与编码多尺度语义和空间坐标的 FPN 设计相结合时,其收益会进一步扩大。

图 1. 熟练的驾驶员会将视线集中在道路前方。左上方的图像显示了摄像头的全貌,而左下方的图像则直观地显示了经验丰富的驾驶员的视线位置--沿着道路和车道线遥望前方。

图 2. FENet 车道检测框架的结构,该框架使用 DLA34 主干网和增强型 FPN。输入层馈入集成了位置非局部块(用于 FENetV1)或标准非局部块(用于 FENetV2)的内部层,以捕捉空间上下文。内部层连接到通过聚焦采样和标准 IOU 损失(用于 FENetV1)或定向 IOU 损失(用于 FENetV2)的输出层。FENetV1 (黄色通路)和 FENetV2 (蓝色通路)共用绿色通路,但有不同的辅助模块。 

 图 3. 聚焦取样(红点)与均匀取样(蓝点)的直观对比。聚焦取样策略性地强调了车道上关键的远处消失点,同时保留了附近的信息点。这考虑到了透视几何,而不像标准的均匀采样那样对所有区域进行同等加权。

图 4. D-IoU 损失。D-IoU 损失通过比较地面实况车道和预测车道来评估模型车道预测的准确性。它整合了车道沿线采样点x_i的扩展车道段之间的 IoU。这提供了一个方向性的局部损失度量,考虑了整个车道几何范围内的预测精度。 

 图 5. 提出的部分视场度量方法通过在预处理裁剪后将下半部分图像细分为远端部分视图来增强评估效果。在(a)上半部分视野和(b)上半部分 1/3 视野评估模型精度符合驾驶前视需求。这一实用指标可衡量车道检测能力,超越现有方法。

 图 6. 曲线、远处、隐藏和磨损的车道线在一些困难样本上的检测效果与地面实况的比较。每幅图像的右上角是人眼对前方焦点位置放大 4 倍像素后的结果。

 图 7 位置非局部图块示意图。额外的坐标图融合在原始非本地块的后部。

图 8. 聚焦采样与均匀采样的直观对比。图中黑点表示 72 个特征点。蓝点表示通过均匀采样选取的特征点,红点表示通过聚焦采样选取的特征点。这项工作中的特征点聚焦采样是从视觉场景远处人口稠密的特征点区域开始,逐渐向观察者附近分布较稀疏的特征点区域推进。 

表 1. FENet 框架以高效的 GFlops 实现了最先进的 CULane 性能。FENetV1 获得了最高的 mF1 和 F1@75 分数,超过了包括最佳 CLRNet 在内的所有方法,展示了先进的车道识别能力。FENetV2 的指标与 V1 非常接近,我们更推荐将其用于实际应用,其优势将在后续章节中分析。

 表 2. 视野(Field of View)的性能。与最佳 CLRNet 相比,FENet 在整个视图、顶部 1/2 视图和顶部 1/3 视图上都有 mF1 的提升。曲线和远处车道的改进尤为明显,FENetV2 在这些视图上的曲线检测分别提高了 2.67、5.66 和 6.01。这凸显了 FENetV2 在具有挑战性的曲线上与之前的作品相比所具有的优势。总体而言,由于 FENetV2 的 D-IOU 损失和 FEFPN 能够优化边界定位,因此在回归精度上超过了 V1。然而,由于 FENetV1 的 PEFPN 能够有效推断空间布局,因此它在车道识别本身而非回归方面表现出更强的能力。

表 3. FENetV2 创造了最先进的 LLAMAS 新结果,证明了先进的车道检测能力。我们的方法利用 DLA-34 主干网创造了最高 mF1,同时在重要的长距离 F1@75 上超过了所有方法。 

表 4. FENetV1 方法中各模块的效果。结果基于 CULane。 

表 5. FENetV2 方法中各模块的效果。结果基于 CULane。 

表 6. PEFPN(FENetV1) 和 FEFPN(FENetV2) 聚焦取样法的消融研究。结果基于 CULane。 

 

这篇关于论文阅读《FENET: FOCUSING ENHANCED NETWORK FOR LANE DETECTION》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/797072

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需