摘要:本文将介绍如何使用其他数据集重新训练模型,文章将会详细介绍每一步。下载数据集我们将使用数据集训练我们的模型,该数据集可以用来做图像分类目标检测图像分割。模型训练完成后,权重文件保存路径。
介绍
YOLO目标检测快速上手这篇文章我们通过简短的代码就实现了一个视频目标检测功能。本文将介绍如何使用其他数据集重新训练YOLO模型,文章将会详细介绍每一步。
下载数据集我们将使用Pascal VOC数据集训练我们的模型,该数据集可以用来做图像分类、目标检测、图像分割。
下载并解压文件后,我们介绍下相关文件的作用。
“Annotations”文件夹:用于存放图片描述,文件格式为.xml,具体内容如下图所示:
如图所示,文件保存了图片文件名,尺寸,标注,坐标,是否分割等信息。
“ImageSets”文件夹:保存了不同用途的图片名字列表,文件格式是.txt。
“layout”文件夹:保存具有人体部位的图片名字列表。
“main”文件夹:保存用于图像物体识别的图片名字列表。
“segmenttions”文件夹:保存用于图像分割的图片名字列表。
因为本次项目使用“main”文件夹,所以我们再详细看下:
文件夹一共有20个分类的文件,通过文件名字我想大家肯定也知道作用了。这里介绍下文件里的正负数代表正负样本,如:
“JPEGImages”文件夹:保存全部图片源文件。
这里我们要留意的是图片名字,以后我们在自己创建数据集的时候,最好也参考此命名方式。
“SegmentationClass”,“SegmentationObject”保存用于图像分割的源图片,两者区别如图所示:
创建标签标签的结构是四维分别是("类别",“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”),其实就是上面所说的图片xml文件中的内容。我们可以通过官方提供的python文件来执行此操作。
# 获取py文件 wget https://pjreddie.com/media/files/voc_label.py
执行此文件之前留意下相关路径是否正确
import xml.etree.ElementTree as ET import pickle import os from os import listdir, getcwd from os.path import join sets=[("2007", "train"), ("2007", "val"), ("2007", "test")] classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"] def convert(size, box): dw = 1./size[0] dh = 1./size[1] x = (box[0] + box[1])/2.0 y = (box[2] + box[3])/2.0 w = box[1] - box[0] h = box[3] - box[2] x = x*dw w = w*dw y = y*dh h = h*dh return (x,y,w,h) def convert_annotation(year, image_id): in_file = open("VOCdevkit/VOC%s/Annotations/%s.xml"%(year, image_id)) out_file = open("VOCdevkit/VOC%s/labels/%s.txt"%(year, image_id), "w") tree=ET.parse(in_file) root = tree.getroot() size = root.find("size") w = int(size.find("width").text) h = int(size.find("height").text) for obj in root.iter("object"): difficult = obj.find("difficult").text cls = obj.find("name").text if cls not in classes or int(difficult) == 1: continue cls_id = classes.index(cls) xmlbox = obj.find("bndbox") b = (float(xmlbox.find("xmin").text), float(xmlbox.find("xmax").text), float(xmlbox.find("ymin").text), float(xmlbox.find("ymax").text)) bb = convert((w,h), b) out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + " ") wd = getcwd() for year, image_set in sets: if not os.path.exists("VOCdevkit/VOC%s/labels/"%(year)): os.makedirs("VOCdevkit/VOC%s/labels/"%(year)) image_ids = open("VOCdevkit/VOC%s/ImageSets/Main/%s.txt"%(year, image_set)).read().strip().split() list_file = open("%s_%s.txt"%(year, image_set), "w") for image_id in image_ids: list_file.write("%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg "%(wd, year, image_id)) convert_annotation(year, image_id) list_file.close()
执行py文件:
python voc_label.py
执行成功后会生成一个label文件夹和三个txt文件,分别是“2007_train.txt”,"2007_test.txt","2007_val.txt"(我只下载了2007的数据集),文件保存的是对应功能的全部图片路径:
label文件夹内文件格式:
分别是:("类别",“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”)
修改配置文件打开darknet/cfg/voc.data,修改“train”,“valid”文件路径。
“classes”:数据集中图片分类数量。
“train”:用于训练的图片数据集绝对路径。
“valid”:用于验证的图片数据集绝对路径。
“names”:数据集中图片分类名字,如:“dog”,“person”等。
“backup”:模型训练完成后,权重文件保存路径。
模型训练首先下载YOLOv3模型:
wget https://pjreddie.com/media/files/darknet53.conv.74
训练之前,我们先看下yolov3-voc.cfg文件里都是什么:
[net] # Testing # batch=1 # subdivisions=1 # 模型训练模式 Training # batch_size batch=64 # 用于进一步分割batch_size,分割后的batch_size大小为:batch_size/subdivisions subdivisions=16 # 模型输入图像宽 width=416 # 模型输入图像高 height=416 # 图像通道数 channels=3 # 使用带动量优化函数的动量参数 momentum=0.9 # 权重衰减率,用于防止过拟合 decay=0.0005 # 以下4项是通过改变图像角度,饱和度,曝光量,色调来生成更多样本,可用于防止过拟合 angle=0 saturation = 1.5 exposure = 1.5 hue=.1 # 初始学习率 learning_rate=0.001 burn_in=1000 # 迭代次数 max_batches = 50200 # 当迭代到40000,45000时更改学习率 policy=steps steps=40000,45000 scales=.1,.1 [convolutional] # BN标准化处理,可以通过改变数据分布,处理梯度过小问题,加快模型收敛 batch_normalize=1 # 输出特征大小 filters=32 # 卷积核大小3x3 size=3 # 卷积步长为1 stride=1 # pad为0,padding由 padding参数指定。如果pad为1,padding大小为size/2 pad=1 # 激活函数,和relu的区别是当输入值小于0时,输出不为0 activation=leaky **。。。。。省略。。。。。。** [yolo] mask = 0,1,2 # 预选框,可手动指定也可通过聚类学习得到 anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326 # 识别种类 classes=20 # 每个cell预测box数量,yolov1时只有一个 num=9 # 增加噪声 jitter=.3 ignore_thresh = .5 truth_thresh = 1 random=1
执行训练:
./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74
训练完成后,权重文件保存在backup文件夹内。
总结如果训练我们自己的数据,数据准备工作参考VOC数据集,在模型训练之前还要更改cfg/yolov3-voc.cfg文件,修改classes类别数量和filter数量,其中filter计算方式:3*(classes+1+4),然后训练即可。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42851.html
摘要:值得一提的是,基于百度自研的开源深度学习平台的实现,参考了论文,增加了,等处理,精度相比于原作者的实现提高了个绝对百分点,在此基础上加入最终精度相比原作者提高个绝对百分点。 YOLO作为目标检测领域的创新技术,一经推出就受到开发者的广泛关注。值得一提的是,基于百度自研的开源深度学习平台PaddlePaddle的YOLO v3实现,参考了论文【Bag of Tricks for Imag...
摘要:将图像到作为输入,输出,即将图片划分为,每个单元格独立检测。类别损失当有物体的中心点落在单元格中,此单元格就负责预测该物体。 YOLO-v1介绍 YOLO是一个端到端的目标检测算法,不需要预先提取region proposal(RCNN目标检测系列),通过一个网络就可以输出:类别,置信度,坐标位置,检测速度很快,不过,定位精度相对低些,特别是密集型小目标。 showImg(https:...
阅读 1471·2021-09-30 09:57
阅读 1479·2021-09-09 09:33
阅读 2245·2021-09-04 16:40
阅读 1810·2021-09-01 10:50
阅读 3256·2021-09-01 10:31
阅读 2549·2019-08-30 15:56
阅读 2980·2019-08-30 15:44
阅读 3484·2019-08-29 17:29