30倍加速,3毫秒急速识别,人、车、OCR等9大分类任务一网打尽

2024-02-05 13:59

本文主要是介绍30倍加速,3毫秒急速识别,人、车、OCR等9大分类任务一网打尽,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“图像分类”作为人工智能领域的重要基础任务,早已在安防监控、智慧交通、医疗影像诊断甚至社交娱乐等行业被广泛应用,成为AI从业者的“必备技能”,例如安防系统中的人体属性识别;文档电子化、卡证识别中的图片方向校准;辅助驾驶中的交通标识、红绿灯状态识别等等,都离不开图像分类技术的支持。

8187a77c57e05b7b52f7be432ee97abc.gif

图1 PaddleClas图像分类应用示意图

a8d466b80e41535e8333138b3a3ac7ff.gif

然而,在实际产业应用中,想要得到一个既快又好的分类模型依然面临很多挑战:

大模型精度-速度难以兼顾

从大名鼎鼎的Resnet50到如今火热的Swin-Transformer,模型精度不断被刷新,但是预测效率并不高。使用Swin-Transformer最小的模型在CPU上预测速度也超过100ms,远远无法满足实时需求。

轻量化模型优化困难

虽然使用MobileNet系列等轻量化模型可以保证较高的预测效率,在CPU上预测一张图像大约3ms,但是模型精度往往和大模型有很大差距。

模型优化落地困难

想要得到性能理想的模型往往需要经过反复的调优操作和重新训练,即使是高频业务场景可参考的实践教程也极少,项目落地不仅耗时长,难度也很大。

ad06ffba487184ab6bef8660f91b88b8.gif

近期,飞桨图像分类开发套件 PaddleClas 推出的超轻量图像分类方案(Practical Ultra Light Classification,简称PULC),就可以完美解决上述产业落地中的难点。只需一行命令,就可完成模型训练,得到精度上与Swin-Transformer等大模型比肩的超轻量图像分类模型,预测速度加速30倍以上,CPU上仅需2ms。

4606bd69efd416a9b1c4cb34df46e461.png

表1 不同模型精度速度结果对比

同时基于这套方案,PaddleClas 团队还发布了人、车、OCR相关的9大场景模型,并且提供了极致简单、统一的使用方式,仅需2步就能实现业务 POC 效果验证,训练、推理、部署一条龙,极大降低应用门槛,真正实现“开箱即用”。

e367b9ca94a43b5566509f377ec62a06.png

8007f05361416060b8b663e2b249f754.gif

图2 9大场景模型效果示意图

57f107e277b90bfc8060c0d212c0cbff.png

传送门:

https://github.com/PaddlePaddle/PaddleClas

5af5bf946b56631133ae00f7d9b9311e.gif

超轻量图像分类方案核心技术介绍

超轻量图像分类方案(PULC)和核心技术主要包括4个优化策略,如下图所示。

b1dc2dedb37ec90246b76f588296260f.png

图3 超轻量图像分类方案(PULC)示意图

PP-LCNet轻量级骨干网络

PP-LCNet作为针对CPU量身打造的骨干网络模型,在速度、精度方面均远超如MobileNetV3等同体量算法,多个场景模型优化后,速度较SwinTransformer的模型快30倍以上,精度较MobileNetV3_small_0.35x高18个点。

SSLD预训练权重

SSLD半监督蒸馏算法可以使小模型学习到大模型的特征和ImageNet22k无标签大规模数据的知识。在训练小模型时,使用SSLD预训练权重作为模型的初始化参数,可以使不同场景的应用分类模型获得1-2.5个点的精度提升。

数据增强策略集成

该方案融合了图像变换、图像裁剪和图像混叠3种数据增强方法,并支持自定义调整触发概率,能使模型的泛化能力大大增强,提升模型在实际场景中的性能。模型可以在上一步的基础上,精度再提升1个点左右。

SKL-UGI知识蒸馏算法

SKL(symmetric-KL)在经典的KL知识蒸馏算法的基础上引入对称信息,提升了算法的鲁棒性。同时,该方案可以方便的在训练中加入无标签训练数据(Unlabeled General Image),可以进一步提升模型效果。该算法可以使模型精度继续提升1-2个点。

PaddleClas产业落地工具集

考虑到真实产业应用面对的各种软硬件环境和不同的场景需求,本次升级同时发布了PaddleClas产业落地工具集。针对图像分类任务,打通20种训练部署软硬件环境与方式,包括3种训练方式、5种训练环境、3种模型压缩策略、和9种推理部署方式,如下表所示。

ffad797b4b01876a131edcc2e903a2c5.png

表2 图像分类产业落地工具集支持的训练推理部署功能列表

其中特色能力如下:

01

分布式训练

飞桨分布式训练架构具备4D混合并行、端到端自适应分布式训练等多项特色技术。在PP-LCNet训练中,4机8卡相较于单机8卡加速比达到3.48倍,加速效率87%,精度无损。

02

模型压缩

飞桨模型压缩工具PaddleSlim功能完备,覆盖模型裁剪、量化、蒸馏和NAS。图像分类模型经过量化裁剪后,移动端平均预测耗时减少24%。

03

移动端/边缘端部署

飞桨轻量化推理引擎Paddle Lite适配了20+ AI 加速芯片,可以快速实现图像分类模型在移动设备、嵌入式设备和IOT设备等高效设备的部署。

以上所有模型、代码均在PaddleClas中开源提供,还有超详细文档教程和范例项目,赶紧查看全部开源代码并Star收藏吧~

链接指路:https://github.com/PaddlePaddle/PaddleClas

福利时间到

为了让开发者们更深入的了解PaddleClas这次发布的全新内容,解决落地应用难点,掌握产业实践的核心能力,6月15-6月17日晚20:30飞桨团队精心准备了为期三天的直播课程!

百度资深高工将为我们详细介绍超轻量图像分类方案,对各场景模型优化原理及使用方式进行拆解,之后还有产业案例全流程实操,对各类痛难点解决方案进行手把手教学,加上直播现场互动答疑,还在等什么!抓紧扫码上车吧!

加入PaddleClas技术交流群

b64d418df4d4cc82d2ffffe90915c852.png

入群福利:

获取PaddleClas详解本次升级内容的直播课链接。

获取PaddleClas团队整理的10G重磅图像分类学习大礼包,包括:

2e6124e11da2b64237dca8bdef7ce47f.png

图4 PaddleClas入群礼包内容示意

入群方式:

SETP1:微信扫描二维码,填写问卷

SETP2:加入交流群领取福利

4e3ef28dbaf09e713afdbed4db23ee65.png

更多阅读

官网地址:https://www.paddlepaddle.org.cn

PaddleClas项目地址:

GitHub: https://github.com/PaddlePaddle/PaddleClas

Gitee: https://gitee.com/paddlepaddle/PaddleClas

这篇关于30倍加速,3毫秒急速识别,人、车、OCR等9大分类任务一网打尽的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/681143

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

30常用 Maven 命令

Maven 是一个强大的项目管理和构建工具,它广泛用于 Java 项目的依赖管理、构建流程和插件集成。Maven 的命令行工具提供了大量的命令来帮助开发人员管理项目的生命周期、依赖和插件。以下是 常用 Maven 命令的使用场景及其详细解释。 1. mvn clean 使用场景:清理项目的生成目录,通常用于删除项目中自动生成的文件(如 target/ 目录)。共性规律:清理操作

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

Spring Boot集成Tess4J实现OCR

1.什么是Tess4j? Tesseract是一个开源的光学字符识别(OCR)引擎,它可以将图像中的文字转换为计算机可读的文本。支持多种语言和书面语言,并且可以在命令行中执行。它是一个流行的开源OCR工具,可以在许多不同的操作系统上运行。Tess4J是一个基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,说白了,就是封装了它的API,让Java可以直接调用。 Tess

FreeRTOS学习笔记(二)任务基础篇

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 任务的基本内容1.1 任务的基本特点1.2 任务的状态1.3 任务控制块——任务的“身份证” 二、 任务的实现2.1 定义任务函数2.2 创建任务2.3 启动任务调度器2.4 任务的运行与切换2.4.1 利用延时函数2.4.2 利用中断 2.5 任务的通信与同步2.6 任务的删除2.7 任务的通知2

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密

Flink任务重启策略

概述 Flink支持不同的重启策略,以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略,该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。常用的重启策略: 固定间隔 (Fixe

第49课 Scratch入门篇:骇客任务背景特效

骇客任务背景特效 故事背景:   骇客帝国特色背景在黑色中慢慢滚动着! 程序原理:  1 、 角色的设计技巧  2 、克隆体的应用及特效的使用 开始编程   1、使用 黑色的背景: ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7d74c872f06b4d9fbc88aecee634b074.png#pic_center)   2