本文主要是介绍自行准备深度学习训练数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
深度学习的模型训练中,数据的收集十分重要,取得足够的数据集对于最终模型的表现有十分重要的意义。但是开源的数据集都指定了特定的目标进行标注,如行人,车辆。当要训练自己所需要的特定检测模型,却又没有开源数据集的时候,就需要自己去收集和标注图像数据用于训练了。
1.数据收集
目前主要通过从百度图片上爬图片来进行数据收集,爬虫脚本如下:
#-*- coding:utf-8 -*-
import re
import requests
import sys,os type=sys.getfilesystemencoding() def dowmloadPic(html,keyword , i ): pic_url = re.findall('"objURL":"(.*?)",',html,re.S) print '找到关键词:'+keyword+'的图片,现在开始下载图片...' for each in pic_url: print u'正在下载第'+str(i+1)+u'张图片,图片地址:'+str(each) try: pic= requests.get(each, timeout=50
这篇关于自行准备深度学习训练数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!