15+城市道路要素分割应用,用这一个分割模型就够了

2023-12-01 14:10

本文主要是介绍15+城市道路要素分割应用,用这一个分割模型就够了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文已在飞桨公众号发布,查看请戳链接:
15+城市道路要素分割应用,用这一个分割模型就够了!

图像语义分割在计算机视觉中是一个经典且具有挑战性的任务。它旨在提供详细的像素级图像分类,相当于为每个像素分配语义标签。该技术目前被广泛应用于城市安防、路况判断等系统领域,比如地图导航的应用是通过分割识别建筑物、墙体、路面状况等道路要素,从而更准确地捕捉路面关键信息。

为了让大家能够更快速地上手技术,百度视觉技术部基于飞桨图像分割开发套件PaddleSeg提供了一套完整的城市街景道路要素分割产业实践范例,提供了从数据准备、模型训练及优化的全流程方案,降低产业落地门槛。这个项目中我们需要把19项关键目标分割出来,那么我们具体的方案思路是什么呢?

图片

图1 分割示例

点击GET项目链接

https://aistudio.baidu.com/aistudio/projectdetail/4038141?contributionType=1

所有源码及教程均已开源,欢迎大家使用。

项目难点

目标复杂

  • 道路复杂:包含直行,转弯,红绿灯路口等;

  • 环境复杂:要适应白天、黑夜、雾天和雨天等;

  • 场景复杂:城市道路、乡村、高速公路等场景差异性较大。

样本不均衡

  • 类别多:包含路面、人行道、建筑物、墙、栅栏、杆子、交通灯、交通标志、植被、地面、天空、人、骑车的人、车、卡车、巴士、火车、摩托车、自行车;

  • 不均衡:每张图像中最多会出现15辆车和30个行人,少时会出现2辆车且无行人,以及各种程度的遮挡与截断。

模型选择

主流的语义分割方案包括如下几个系列:

  • FCN(Fully Convolution Network):即全卷积网络,作为使用深度学习做图像分割的先例,其象征意义更大于实际意义。

  • U-Net系列:在UNet之前,主要的分割网络都是直筒式的,只使用顶层或后几层信息来上采样重建。而UNet是直接连接到输入端的卷积层。

  • DeepLab系列:DeepLab在图像分割领域中是另一个系列,目前已经有多个版本,和之前的UNet系列比起来,主要差别是在对输入图像的处理和网络的结构上。DeepLab主要使用了图像金字塔、空洞卷积、SPP空间金字塔池化、可分离卷积等方法来提高分割的效果。

  • HRNet系列:HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的语义信息更准确,在空间上也更精确。

  • Transformer系列:自从Transformer被引入计算机视觉以来,催生了大量相关研究与应用。在图像分割方向,涌现了像SETR、TransUNet、SegFormer、MaskFormer等基于Transformer的语义分割网络模型。打破了卷积结构在图像全局信息访问限制的问题。

由于分割目标较复杂,我们选取了精度表现较好的HRNet系列中MscaleOCRNet 模型进行后续实验,它SOTA的mIoU达到了87%。相比于HRNet网络结构,它是在分割后的结果上计算每个像素与图像其他像素的一个关系权重,与原特征进行一个叠加构成OCRNet网络,再基于OCRNet进行分层多尺度训练形成最终的 MscaleOCRNet,多尺度训练与推理方式如下图所示。

图片

图2 MscaleOCRNet 方案

算法优化

为了进一步提升精度,解决样本不均衡的问题,我们提供了以下优化思路:

  • 修改预训练模型:将mapillary预训练改为Cityscapes预训练模型,迁移至KITTI-STEP数据集训练可以有效提升分割效果;

  • 增加多尺度训练:由 [0.5,1.0] 两个尺度增加至 [0.5,1.0,2.0] 三个尺度;

  • 修改输入尺寸:修改输入尺寸由1024x512变为原图尺寸1248x384。

图片

使用工具

本项目使用PaddleSeg开发完成。PaddleSeg是基于飞桨PaddlePaddle开发的端到端图像分割开发套件,涵盖了高精度和轻量级等不同方向的大量高质量分割模型。通过模块化的设计,提供了配置化驱动和API调用两种应用方式,帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。提供语义分割、交互式分割、全景分割、Matting四大图像分割能力。

模型部署

使用飞桨原生推理库Paddle Inference,用于服务端模型部署,总体上分为三步:

1. 创建PaddlePredictor,设置所导出的模型路径;

2. 创建输入用的PaddleTensor,传入到PaddlePredictor中;

3. 获取输出的PaddleTensor,将结果取出。

图片

如果想了解更详细方案细节,欢迎关注我们的直播课程,手把手全流程教学等着你哦。

精彩课程预告

为了让小伙伴们更便捷地应用范例教程,百度高级研发工程师将于6月23日(周四)20:00点为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实践。

关注飞桨公众号报名直播课

加入技术交流群

引用说明:图2引用自“Hierarchical Multi-Scale Attention for Semantic Segmentation”

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

这篇关于15+城市道路要素分割应用,用这一个分割模型就够了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/441466

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了