MindSpore应用实践——BDCI 华为零售商品识别竞赛一等奖方案分享

本文主要是介绍MindSpore应用实践——BDCI 华为零售商品识别竞赛一等奖方案分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GiantPandaCV导语

上学期快结束的时候参加了华为和CCF组织的零售商品识别的比赛,队伍名称为GiantPandaCV队,比赛大约持续了两个月,期间从开始摸索MindSpore框架,配置环境,上手ModelArts花费了不少功夫。现在比赛终于告一段落,本文进行一下复盘。

背景

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办。

大赛由国家自然科学基金委员会指导,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

本赛题识别对象是零售商品,使用的数据集是RP2K数据集,RP2K是品览基于零售商品识别能力发布的零售数据集。不同于一般聚焦新产品的数据集,RP2K收录了超过50万张零售商品货架图片,商品种类超过2000种,该数据集是目前零售类数据集中产品种类数量TOP1,同时所有图片均来自于真实场景下的人工采集,针对每种商品,我们提供了十分详细的注释。

RP2K数据集(https://arxiv.org/pdf/2006.12634.pdf)具有以下特性:

(1) 迄今为止,就产品类别而言,它是规模最大的数据集。

(2) 所有图片均在实体零售店人工拍摄,自然采光,符合实际应用场景。

(3) 为每个对象提供了丰富的注释,包括大小、形状和味道/气味。

数据分析

数据集中的一些样本如下图所示,大部分分布是细长的,长宽分布要比ImageNet等数据集更加分布不均匀:

此外,该数据集的数据量和类别数量也非常多,下图展示了RP2K和其他零售数据集的对比,RP2K具有2388个类别的零售商品,属于大规模分类问题。

此外,数据集某一些类间分布差异较小,相同品牌不同子产品之间差异较小,可以归属为细粒度分类问题。数据质量也存在一定的问题,比如光照,包装差异,拍摄角度,标注错误等等问题。

经过统计,该数据集呈现明显的长尾分布:

数据处理

1、Resize策略

Structure-Retention Resize策略,保留原有的结构化信息。性能上能够提升3个百分点,如下图所示,也就是padding黑边的方式。这个策略在比赛初期是最有效的策略,比传统的resize方法能够提高3.17%个百分点。

2、数据增强

我们测试了三种经典的数据增强方法:

▪ Cutout数据增强策略,在随机位置Crop正方形Patch。

▪ AutoAugmentation策略,使用了针对ImageNet搜索得到的策略。

▪ Random Erasing策略,随机擦除原图中的一个矩形区域,将区域内部像素值替换为随机值。

实验效果如下:

3、后处理方法FixRes

采用了NIPS19年Facebook提出的FixRes的后处理技巧,ImageNet上经典的数据增强方式会导致训练时和测试时的模型看到的目标尺寸出现差异。

之前写过一篇文章解读FixRes详细内容可以看这里:

https://blog.csdn.net/DD_PP_JJ/article/details/121202386?spm=1001.2014.3001.5501

简单来说是由于ImageNet经典的数据处理方法会导致Region of Classification,即模型看到的目标尺寸不同。

可以看到,下图中通过训练和测试过程得到的“7喜”的logo标志大小存在差异,为了弥补两者差异,最简单的方式是提高测试过程中分辨率。

FixRes有三步流程:

第一步,正常以224分辨率进行训练

第二步,将测试分辨率调高到280

第三步,固定backbone,只对Linear层进行finetune。

具体实验结果如下:

模型改进

1、模型选择

由于数据集规模比较大,为了快速测试各个模型的有效性,使用了50%的数据进行快速验证,验证选择的模型包括:

  • ResNet50_BAM

  • ResNet50

  • ResNet101

  • ResNet_CBAM

  • SEResNet50

  • Swin Transformer

  • EfficientNet

  • SEResNeXt50

  • Inception_resnet_v2

我们最终选择了SEResNeXt50作为主要模型,并配合ResNet50_CBAM还有Inception_resNet_v2进行模型集成。Swin Transformer和EfficientNet两个模型由于其运行速度太慢,在比赛时间限制下没有使用两者。

SEResNeXt模型有两部分构成:

  • ResNeXt在ResNet基础上引入了基数, 通过引入组卷积让模型能够学到更diverse的表示。

  • Squeeze & Excitation Module让模型能够自适应地调整各个通道的重要程度,学习到了通道之间的相关性,提升模型表达能力。

2、模型改进

模型改进部分是一个简单而符合直觉的方法,我们观察到,现有的大部分模型都是针对ImageNet进行设计的,而ImageNet类别数为1000个类别,但RP2K数据集规模比较大,拥有2388个类别。

我们关注大多数模型的最后一个linear层的设计,针对ImageNet设计的模型的Linear层通常由2048维度映射到1000维度,由高纬度映射到低纬度比较合理。

但是由于RP2K的规模较大,类别数量为2388,直接由2048映射至2388可能会导致容量不够的问题,由低纬度映射映射至高纬度则不太符合直觉。

针对此,我们进行了简单而符合直觉的改进,如下图所示:

通过以上改进,扩充了模型的容量,取得了0.26%的提升。

3、模型训练细节

  • 使用label smooth来降低过拟合,更好地处理难分样本。

  • 优化器使用SGD init lr=0.1

  • 调度器: Cosine Annealing mini lr=1e-6

  • Batch Size: 128 Epoch: 75

  • 混合精度:GPU O2 Ascend O3

  • 模型集成:(本次比赛不允许集成,但是这里也展示了一下集成的效果)

  • SEResNeXt50(96.94)+ResNet50BAM(97.24%)+Inception_resnet_v2(96.35%)+

    TTA(HorionFlip) = 97.49% top1

错例分析

在林臻帮助下,手工分析了一下错误样例(注:以上分析去除了others类别错分样本),可以发现这个数据集比较难处理的是细粒度带来的识别困难、疑似数据标注错误、以及长尾分布的尾部类别,这也符合我们数据分析的结论。

MindSpore框架使用感受

本次比赛面向国产AI框架,基于MindSpore开发商品识别算法,必须在昇腾910平台训练和部署模型,以官方复现结果为准。

使用MindSpore的感受:

1、优点

  • 最大的优点,与昇腾平台兼容好,训练效率比较高。我们这边没有昇腾平台,大部分实验在GPU上跑的,后期进行验证的过程中发现,GPU上运行速度要远低于昇腾平台运行速度(同一套代码,唯一区别可能是O2与O3的区别),大概速度上能快接近一倍。

  • 支持动态图和静态图,动态图方面进行调试,静态图运行效率更高。

  • 社群友好,加入了MindSpore高校网络调试联盟,其中负责复现Swin Transformer的作者@项靖阳等人的指点,在我们遇到一些坑的过程中能快速跳出来。

  • 快速开发,在拥有Pytorch经验的基础上,转到MindSpore之后结合API查询,可以比较快地上手。

  • 数据预处理部分与PyTorch不同的是,MS提供了c_transforms和py_transforms,经过实测c_transforms在数据处理速度上要比py_transforms快非常多,如果没有特殊需要,还是建议使用c_transforms。

2、开发过程中的缺点

  • 预训练模型不太友好,个人感觉model zoo支持模型比较少,甚至有一部分数量的权重是基于CIFAR10训练的,并没有ImageNet训练的模型,如果需要用的话还需要将PyTorch的权重转换过来才能使用。

  • 动态图运行效率非常低,调试的过程中忘记将动态图转化为静态图了,然后发现运行时间翻倍,仔细一看GPU利用率非常低,仔细排查以后发现使用的是动态图。由此看来MS的动态图支持(GPU上的)效率不是很高,我们转化为静态图之后瞬间利用率高了很多。

  • 封装过程略深,官方推荐的运行方式其实更接近于Keras,构建callbacks来完成训练过程的处理。(当然官方也支持像PyTorch那种展开的写法)

最后对MindSpore感兴趣的小伙伴可以使用以下的参考资料快速上手:

  • MindSpore 安装问题:

    https://www.mindspore.cn/install

  • 最直接的学习资料,官方教程:

    https://www.mindspore.cn/tutorials/zh-CN/r1.5/index.html

  • 最简单的分类例程:

    https://www.mindspore.cn/docs/programming_guide/zh-CN/master/quick_start/quick_video.html

  • 可白嫖的模型模型库:

    https://gitee.com/mindspore/models

开源代码

GiantPandaCV队比赛的全部源码已经开源,收集了非常多的模型,欢迎尝试。

Github地址:

https://github.com/pprp/GoodsRecognition.MindSpore

Gitee地址:

https://gitee.com/pprp/GoodsRecognition.MindSpore

MindSpore官方资料

GitHub : https://github.com/mindspore-ai/mindspore

Gitee : https : //gitee.com/mindspore/mindspore

官方QQ群 : 486831414

 

这篇关于MindSpore应用实践——BDCI 华为零售商品识别竞赛一等奖方案分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/696032

相关文章

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

你的华为手机升级了吗? 鸿蒙NEXT多连推5.0.123版本变化颇多

《你的华为手机升级了吗?鸿蒙NEXT多连推5.0.123版本变化颇多》现在的手机系统更新可不仅仅是修修补补那么简单了,华为手机的鸿蒙系统最近可是动作频频,给用户们带来了不少惊喜... 为了让用户的使用体验变得很好,华为手机不仅发布了一系列给力的新机,还在操作系统方面进行了疯狂的发力。尤其是近期,不仅鸿蒙O

java中VO PO DTO POJO BO DO对象的应用场景及使用方式

《java中VOPODTOPOJOBODO对象的应用场景及使用方式》文章介绍了Java开发中常用的几种对象类型及其应用场景,包括VO、PO、DTO、POJO、BO和DO等,并通过示例说明了它... 目录Java中VO PO DTO POJO BO DO对象的应用VO (View Object) - 视图对象

Python中列表的高级索引技巧分享

《Python中列表的高级索引技巧分享》列表是Python中最常用的数据结构之一,它允许你存储多个元素,并且可以通过索引来访问这些元素,本文将带你深入了解Python列表的高级索引技巧,希望对... 目录1.基本索引2.切片3.负数索引切片4.步长5.多维列表6.列表解析7.切片赋值8.删除元素9.反转列表

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Go信号处理如何优雅地关闭你的应用

《Go信号处理如何优雅地关闭你的应用》Go中的优雅关闭机制使得在应用程序接收到终止信号时,能够进行平滑的资源清理,通过使用context来管理goroutine的生命周期,结合signal... 目录1. 什么是信号处理?2. 如何优雅地关闭 Go 应用?3. 代码实现3.1 基本的信号捕获和优雅关闭3.2