2021 BDCI 华为零售商品识别竞赛一等奖方案分享

2024-02-10 03:40

本文主要是介绍2021 BDCI 华为零售商品识别竞赛一等奖方案分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【GiantPandaCV导语】上学期快结束的时候参加了华为和CCF组织的零售商品识别的比赛,队伍名称为GiantPandaCV队,比赛大约持续了两个月,期间从开始摸索MindSpore框架,配置环境,上手ModelArts花费了不少功夫。现在比赛终于告一段落,本文进行一下复盘。

背景

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办。大赛由国家自然科学基金委员会指导,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

本赛题识别对象是零售商品,使用的数据集是RP2K数据集,RP2K是品览基于零售商品识别能力发布的零售数据集。不同于一般聚焦新产品的数据集,RP2K收录了超过50万张零售商品货架图片,商品种类超过2000种,该数据集是目前零售类数据集中产品种类数量TOP1,同时所有图片均来自于真实场景下的人工采集,针对每种商品,我们提供了十分详细的注释。

RP2K数据集(https://arxiv.org/pdf/2006.12634.pdf)具有以下特性:

(1) 迄今为止,就产品类别而言,它是规模最大的数据集。

(2) 所有图片均在实体零售店人工拍摄,自然采光,符合实际应用场景。

(3) 为每个对象提供了丰富的注释,包括大小、形状和味道/气味。

数据分析

数据集中的一些样本如下图所示,大部分分布是细长的,长宽分布要比ImageNet等数据集更加分布不均匀:

此外,该数据集的数据量和类别数量也非常多,下图展示了RP2K和其他零售数据集的对比,RP2K具有2388个类别的零售商品,属于大规模分类问题。

此外,数据集某一些类间分布差异较小,相同品牌不同子产品之间差异较小,可以归属为细粒度分类问题。数据质量也存在一定的问题,比如光照,包装差异,拍摄角度,标注错误等等问题。

经过统计,该数据集呈现明显的长尾分布:

数据预处理

1. Resize策略

Structure-Retention Resize策略,保留原有的结构化信息。性能上能够提升3个百分点,如下图所示,也就是padding黑边的方式。这个策略在比赛初期是最有效的策略,比传统的resize方法能够提高3.17%个百分点。

2. 数据增强

我们测试了三种经典的数据增强方法:

  • Cutout数据增强策略,在随机位置Crop正方形Patch。
  • AutoAugmentation策略,使用了针对ImageNet搜索得到的策略。
  • Random Erasing策略,随机擦除原图中的一个矩形区域,将区域内部像素值替换为随机值。

实验效果如下:

3 后处理方法FixRes

采用了NIPS19年Facebook提出的FixRes的后处理技巧,ImageNet上经典的数据增强方式会导致训练时和测试时的模型看到的目标尺寸出现差异。

之前写过一篇文章解读FixRes详细内容可以看这里:

xxx

https://blog.csdn.net/DD_PP_JJ/article/details/121202386?spm=1001.2014.3001.5501

简单来说是由于ImageNet经典的数据处理方法会导致Region of Classification,即模型看到的目标尺寸不同。

可以看到,下图中通过训练和测试过程得到的“7喜”的logo标志大小存在差异,为了弥补两者差异,最简单的方式是提高测试过程中分辨率。

FixRes有三步流程:

  • 第一步,正常以224分辨率进行训练
  • 第二步,将测试分辨率调高到280
  • 第三步,固定backbone,只对Linear层进行finetune。

具体实验结果如下:

模型改进

1 模型选择

由于数据集规模比较大,为了快速测试各个模型的有效性,使用了50%的数据进行快速验证,验证选择的模型包括:

  • ResNet50_BAM

  • ResNet50

  • ResNet101

  • ResNet_CBAM

  • SEResNet50

  • Swin Transformer

  • EfficientNet

  • SEResNeXt50

  • Inception_resnet_v2

我们最终选择了SEResNeXt50作为主要模型,并配合ResNet50_CBAM还有Inception_resNet_v2进行模型集成。Swin Transformer和EfficientNet两个模型由于其运行速度太慢,在比赛时间限制下没有使用两者。

SEResNeXt模型有两部分构成

  • ResNeXt在ResNet基础上引入了基数, 通过引入组卷积让模型能够学到更diverse的表示。
  • Squeeze & Excitation Module让模型能够自适应地调整各个通道的重要程度,学习到了通道之间的相关性,提升模型表达能力。

2 模型改进

模型改进部分是一个简单而符合直觉的方法,我们观察到,现有的大部分模型都是针对ImageNet进行设计的,而ImageNet类别数为1000个类别,但RP2K数据集规模比较大,拥有2388个类别。

我们关注大多数模型的最后一个linear层的设计,针对ImageNet设计的模型的Linear层通常由2048维度映射到1000维度,由高纬度映射到低纬度比较合理。

但是由于RP2K的规模较大,类别数量为2388,直接由2048映射至2388可能会导致容量不够的问题,由低纬度映射映射至高纬度则不太符合直觉。

针对此,我们进行了简单而符合直觉的改进,如下图所示:

通过以上改进,扩充了模型的容量,取得了0.26%的提升。

3. 模型训练细节

  • 使用label smooth来降低过拟合,更好地处理难分样本。

  • 优化器使用SGD init lr=0.1

  • 调度器: Cosine Annealing mini lr=1e-6

  • Batch Size: 128 Epoch: 75

  • 混合精度:GPU O2 Ascend O3

  • 模型集成:(本次比赛不允许集成,但是这里也展示了一下集成的效果)

  • SEResNeXt50(96.94)+ResNet50BAM(97.24%)+Inception_resnet_v2(96.35%) + TTA(HorionFlip) = 97.49% top1

错例分析

在林臻帮助下,手工分析了一下错误样例(注:以上分析去除了others类别错分样本),可以发现这个数据集比较难处理的是细粒度带来的识别困难、疑似数据标注错误、以及长尾分布的尾部类别,这也符合我们数据分析的结论。

MindSpore框架使用感受

本次比赛面向国产AI框架,基于MindSpore开发商品识别算法,必须在昇腾910平台训练和部署模型,以官方复现结果为准。

使用MindSpore的感受:

  1. 优点:

    • 最大的优点,与昇腾平台兼容好,训练效率比较高。我们这边没有昇腾平台,大部分实验在GPU上跑的,后期进行验证的过程中发现,GPU上运行速度要远低于昇腾平台运行速度(同一套代码,唯一区别可能是O2与O3的区别),大概速度上能快接近一倍。

    • 支持动态图和静态图,动态图方面进行调试,静态图运行效率更高。

    • 社群友好,加入了MindSpore高校网络调试联盟,其中负责复现Swin Transformer的作者@项靖阳等人的指点,在我们遇到一些坑的过程中能快速跳出来。

    • 快速开发,在拥有Pytorch经验的基础上,转到MindSpore之后结合API查询,可以比较快的上手。

    • 数据预处理部分与PyTorch不同的是,MS提供了c_transforms和py_transforms,经过实测c_transforms在数据处理速度上要比py_transforms快非常多,如果没有特殊需要,还是建议使用c_transforms。

  2. 缺点:说几个开发过程中缺点

    • 预训练模型不太友好,个人感觉model zoo支持模型比较少,甚至有一部分数量的权重是基于CIFAR10训练的,并没有ImageNet训练的模型,如果需要用的话还需要将PyTorch的权重转换过来才能使用。
    • 动态图运行效率非常低,这个坑浪费了我几乎一天的时间,调试的过程中忘记将动态图转化为静态图了,然后发现运行时间翻倍,仔细一看GPU利用率非常低,仔细排查以后发现使用的是动态图。由此看来MS的动态图支持(GPU上的)效率不是很高,我们转化为静态图之后瞬间利用率高了很多。
    • 封装过程略深,官方推荐的运行方式其实更接近于Keras,构建callbacks来完成训练过程的处理。(当然官方也支持像PyTorch那种展开的写法)

最后对MindSpore感兴趣的小伙伴可以使用以下的参考资料快速上手:

  • MindSpore 安装问题:https://www.mindspore.cn/install

  • 最直接的学习资料,官方教程: https://www.mindspore.cn/tutorials/zh-CN/r1.5/index.html

  • 最简单的分类例程:https://www.mindspore.cn/docs/programming_guide/zh-CN/master/quick_start/quick_video.html

  • 可白嫖的模型模型库:https://gitee.com/mindspore/models

开源代码

GiantPandaCV队比赛的全部源码已经开源,收集了非常多的模型,欢迎尝试。

Github地址:https://github.com/pprp/GoodsRecognition.MindSpore

Gitee地址:https://gitee.com/pprp/GoodsRecognition.MindSpore

这篇关于2021 BDCI 华为零售商品识别竞赛一等奖方案分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/696033

相关文章

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

linux进程D状态的解决思路分享

《linux进程D状态的解决思路分享》在Linux系统中,进程在内核模式下等待I/O完成时会进入不间断睡眠状态(D状态),这种状态下,进程无法通过普通方式被杀死,本文通过实验模拟了这种状态,并分析了如... 目录1. 问题描述2. 问题分析3. 实验模拟3.1 使用losetup创建一个卷作为pv的磁盘3.

MySQL8.2.0安装教程分享

《MySQL8.2.0安装教程分享》这篇文章详细介绍了如何在Windows系统上安装MySQL数据库软件,包括下载、安装、配置和设置环境变量的步骤... 目录mysql的安装图文1.python访问网址2javascript.点击3.进入Downloads向下滑动4.选择Community Server5.

CentOS系统Maven安装教程分享

《CentOS系统Maven安装教程分享》本文介绍了如何在CentOS系统中安装Maven,并提供了一个简单的实际应用案例,安装Maven需要先安装Java和设置环境变量,Maven可以自动管理项目的... 目录准备工作下载并安装Maven常见问题及解决方法实际应用案例总结Maven是一个流行的项目管理工具

10个Python自动化办公的脚本分享

《10个Python自动化办公的脚本分享》在日常办公中,我们常常会被繁琐、重复的任务占据大量时间,本文为大家分享了10个实用的Python自动化办公案例及源码,希望对大家有所帮助... 目录1. 批量处理 Excel 文件2. 自动发送邮件3. 批量重命名文件4. 数据清洗5. 生成 PPT6. 自动化测试

10个Python Excel自动化脚本分享

《10个PythonExcel自动化脚本分享》在数据处理和分析的过程中,Excel文件是我们日常工作中常见的格式,本文将分享10个实用的Excel自动化脚本,希望可以帮助大家更轻松地掌握这些技能... 目录1. Excel单元格批量填充2. 设置行高与列宽3. 根据条件删除行4. 创建新的Excel工作表5

Redis 多规则限流和防重复提交方案实现小结

《Redis多规则限流和防重复提交方案实现小结》本文主要介绍了Redis多规则限流和防重复提交方案实现小结,包括使用String结构和Zset结构来记录用户IP的访问次数,具有一定的参考价值,感兴趣... 目录一:使用 String 结构记录固定时间段内某用户 IP 访问某接口的次数二:使用 Zset 进行

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

MySQL分表自动化创建的实现方案

《MySQL分表自动化创建的实现方案》在数据库应用场景中,随着数据量的不断增长,单表存储数据可能会面临性能瓶颈,例如查询、插入、更新等操作的效率会逐渐降低,分表是一种有效的优化策略,它将数据分散存储在... 目录一、项目目的二、实现过程(一)mysql 事件调度器结合存储过程方式1. 开启事件调度器2. 创