【天池比赛】数智重庆.全球产业赋能创新大赛【赛场一】物体检测

本文主要是介绍【天池比赛】数智重庆.全球产业赋能创新大赛【赛场一】物体检测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Update List

2020/1/1 : Code Link:

本次开源，是帮助小白，有什么问题，欢迎留言，有什么建议，也欢迎留言

本次比赛，大多数同学都是使用mmdetection,使用mmdetection第一步就是应该了解config文件.
由于大部分代码来源mmdet,所以暂时只上传config。

cascade_rcnn_r50_fpn_1x.py

# fp16 settings
fp16 = dict(loss_scale=512.)
# model settings
model = dict(type='CascadeRCNN',num_stages=3,pretrained='torchvision://resnet50',backbone=dict(type='ResNet',depth=50,num_stages=4,out_indices=(0, 1, 2, 3),frozen_stages=1,style='pytorch',#dcn=dict( #在最后三个block加入可变形卷积 #   modulated=False, deformable_groups=1, fallback_on_stride=False),#  stage_with_dcn=(False, True, True, True)),neck=dict(type='FPN',in_channels=[256, 512, 1024, 2048],out_channels=256,num_outs=5),rpn_head=dict(type='RPNHead',in_channels=256,feat_channels=256,anchor_scales=[8],anchor_ratios=[0.2, 0.5, 1.0, 2.0, 5.0], # 添加了0.2，5anchor_strides=[4, 8, 16, 32, 64],target_means=[.0, .0, .0, .0],target_stds=[1.0, 1.0, 1.0, 1.0],loss_cls=dict(type='FocalLoss', use_sigmoid=True, loss_weight=1.0), # 修改了loss，为了调控难易样本与正负样本比例loss_bbox=dict(type='SmoothL1Loss', beta=1.0 / 9.0, loss_weight=1.0)),bbox_roi_extractor=dict(type='SingleRoIExtractor',roi_layer=dict(type='RoIAlign', out_size=7, sample_num=2),out_channels=256,featmap_strides=[4, 8, 16, 32]),bbox_head=[dict(type='SharedFCBBoxHead',num_fcs=2,in_channels=256,fc_out_channels=1024,roi_feat_size=7,num_classes=11,target_means=[0., 0., 0., 0.],target_stds=[0.1, 0.1, 0.2, 0.2],reg_class_agnostic=True,loss_cls=dict(type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0)),dict(type='SharedFCBBoxHead',num_fcs=2,in_channels=256,fc_out_channels=1024,roi_feat_size=7,num_classes=11,target_means=[0., 0., 0., 0.],target_stds=[0.05, 0.05, 0.1, 0.1],reg_class_agnostic=True,loss_cls=dict(type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0)),dict(type='SharedFCBBoxHead',num_fcs=2,in_channels=256,fc_out_channels=1024,roi_feat_size=7,num_classes=11,target_means=[0., 0., 0., 0.],target_stds=[0.033, 0.033, 0.067, 0.067],reg_class_agnostic=True,loss_cls=dict(type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))])
# model training and testing settings
train_cfg = dict(rpn=dict(assigner=dict(type='MaxIoUAssigner',pos_iou_thr=0.7,neg_iou_thr=0.3,min_pos_iou=0.3,ignore_iof_thr=-1),sampler=dict(type='RandomSampler', num=256,pos_fraction=0.5,neg_pos_ub=-1,add_gt_as_proposals=False),allowed_border=0,pos_weight=-1,debug=False),rpn_proposal=dict(nms_across_levels=False,nms_pre=2000,nms_post=2000,max_num=2000,nms_thr=0.7,min_bbox_size=0),rcnn=[dict(assigner=dict(type='MaxIoUAssigner',pos_iou_thr=0.4, # 更换neg_iou_thr=0.4,min_pos_iou=0.4,ignore_iof_thr=-1),sampler=dict(type='OHEMSampler',num=512,pos_fraction=0.25,neg_pos_ub=-1,add_gt_as_proposals=True),pos_weight=-1,debug=False),dict(assigner=dict(type='MaxIoUAssigner',pos_iou_thr=0.5,neg_iou_thr=0.5,min_pos_iou=0.5,ignore_iof_thr=-1),sampler=dict(type='OHEMSampler', # 解决难易样本，也解决了正负样本比例问题。num=512,pos_fraction=0.25,neg_pos_ub=-1,add_gt_as_proposals=True),pos_weight=-1,debug=False),dict(assigner=dict(type='MaxIoUAssigner',pos_iou_thr=0.6,neg_iou_thr=0.6,min_pos_iou=0.6,ignore_iof_thr=-1),sampler=dict(type='OHEMSampler',num=512,pos_fraction=0.25,neg_pos_ub=-1,add_gt_as_proposals=True),pos_weight=-1,debug=False)],stage_loss_weights=[1, 0.5, 0.25])
test_cfg = dict(rpn=dict(nms_across_levels=False,nms_pre=1000,nms_post=1000,max_num=1000,nms_thr=0.7,min_bbox_size=0),rcnn=dict(score_thr=0.05, nms=dict(type='nms', iou_thr=0.5), max_per_img=20)) # 这里可以换为sof_tnms
# dataset settings
dataset_type = 'CocoDataset'
data_root = '../../data/chongqing1_round1_train1_20191223/'
img_norm_cfg = dict(mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
train_pipeline = [dict(type='LoadImageFromFile'),dict(type='LoadAnnotations', with_bbox=True),dict(type='Resize', img_scale=(492,658), keep_ratio=True), #这里可以更换多尺度[(),()]dict(type='RandomFlip', flip_ratio=0.5),dict(type='Normalize', **img_norm_cfg),dict(type='Pad', size_divisor=32),dict(type='DefaultFormatBundle'),dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']),
]
test_pipeline = [dict(type='LoadImageFromFile'),dict(type='MultiScaleFlipAug',img_scale=(492,658),flip=False,transforms=[dict(type='Resize', keep_ratio=True),dict(type='RandomFlip'),dict(type='Normalize', **img_norm_cfg),dict(type='Pad', size_divisor=32),dict(type='ImageToTensor', keys=['img']),dict(type='Collect', keys=['img']),])
]
data = dict(imgs_per_gpu=8, # 有的同学不知道batchsize在哪修改，其实就是修改这里，每个gpu同时处理的images数目。workers_per_gpu=2,train=dict(type=dataset_type,ann_file=data_root + 'fixed_annotations.json', # 更换自己的json文件img_prefix=data_root + 'images/', # images目录pipeline=train_pipeline),val=dict(type=dataset_type,ann_file=data_root + 'fixed_annotations.json',img_prefix=data_root + 'images/',pipeline=test_pipeline),test=dict(type=dataset_type,ann_file=data_root + 'fixed_annotations.json',img_prefix=data_root + 'images/',pipeline=test_pipeline))
# optimizer
optimizer = dict(type='SGD', lr=0.001, momentum=0.9, weight_decay=0.0001) # lr = 0.00125*batch_size，不能过大，否则梯度爆炸。
optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
# learning policy
lr_config = dict(policy='step',warmup='linear',warmup_iters=500,warmup_ratio=1.0 / 3,step=[6, 12, 19])
checkpoint_config = dict(interval=1)
# yapf:disable
log_config = dict(interval=64,hooks=[dict(type='TextLoggerHook'), # 控制台输出信息的风格# dict(type='TensorboardLoggerHook') # 需要安装tensorflow and tensorboard才可以使用])
# yapf:enable
# runtime settings
total_epochs = 20
dist_params = dict(backend='nccl')
log_level = 'INFO'
work_dir = '../work_dirs/cascade_rcnn_r50_fpn_1x' # 日志目录
load_from = '../work_dirs/cascade_rcnn_r50_fpn_1x/latest.pth' # 模型加载目录文件
#load_from = '../work_dirs/cascade_rcnn_r50_fpn_1x/cascade_rcnn_r50_coco_pretrained_weights_classes_11.pth'
resume_from = None
workflow = [('train', 1)]

源代码修改部分

1.有同学说没有，segmentation字段，其实，只要注释源代码中那一行，就可以简单处理。
2.对于label=0,可以在coco.py中修改过滤条件。

for i, ann in enumerate(ann_info):if ann.get('ignore', False):continuex1, y1, w, h = ann['bbox']if ann['area'] <= 0 or w < 1 or h < 1:continueif ann['category_id'] == 0:continuebbox = [round(x1,2), round(y1,2), round(x1 + w - 1,2), round(y1 + h - 1,2)]if ann.get('iscrowd', False):gt_bboxes_ignore.append(bbox)else:gt_bboxes.append(bbox)gt_labels.append(ann['category_id'])# gt_masks_ann.append(ann['segmentation'])if gt_bboxes:gt_bboxes = np.array(gt_bboxes, dtype=np.float32)gt_labels = np.array(gt_labels, dtype=np.int64)

安装

1.用conda创建一个新的虚拟环境

conda create -n mmdetection python=3.7
conda activate mmdetection# 安装必要模块
conda install pytorch=1.1.0 torchvision=0.3.0 cudatoolkit=10.0 -c pytorch
pip install cython && pip --no-cache-dir install -r requirements.txt# 安装mmdetection
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection
# 安装
python setup.py install
# 编译
python setup.py develop

2.demo测试安装是否成功

#如果安装成功，则该文件可以运行成功。
#coding=utf-8from mmdet.apis import init_detector
from mmdet.apis import inference_detector
from mmdet.apis import show_result# 模型配置文件
config_file = './configs/cascade_rcnn_r50_fpn_1x.py'# 预训练模型文件
checkpoint_file = '../../checkpoints/cascade_rcnn_r50_fpn_20e_20181123-db483a09.pth'# 通过模型配置文件与预训练文件构建模型
model = init_detector(config_file, checkpoint_file, device='cuda:0')# 测试单张图片并进行展示
img = 'demo.jpg'
result = inference_detector(model, img)
show_result(img, result, model.CLASSES)

3.训练

python tools/train.py configs/.py --gpus 1

知识补充

Soft-NMS

Soft-NMS 改进了之前比较暴力的 NMS，当 IOU 超过某个阈值后，不再直接删除该框，而是降低它的置信度 (得分)，如果得分低到一个阈值，就会被排除；但是如果降低后仍然较高，就会被保留。

OHEM

OHEM (online hard example mining)，翻译过来就是在线难例挖掘，就是对所有的 ROI 的损失进行评估，选择损失较大的来优化网络，详情移步：OHEM 论文解读

损失选择

针对分类的损失函数可以试试如 GHM-C Loss，针对回归的损失函数可以试试如 GHM-R Loss。IOU可以使用 GIou Loss，Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression
。