目錄
- 一. 加載數(shù)據(jù)
- 1. 繼承Dataset類并重寫關(guān)鍵方法
- 2. 使用Dataloader加載數(shù)據(jù)
- 二. 模型設(shè)計(jì)
- 三. 訓(xùn)練
- 四. 測(cè)試
- 結(jié)語
pytorch中文網(wǎng):https://www.pytorchtutorial.com/
pytorch官方文檔:https://pytorch.org/docs/stable/index.html
一. 加載數(shù)據(jù)
Pytorch的數(shù)據(jù)加載一般是用torch.utils.data.Dataset與torch.utils.data.Dataloader兩個(gè)類聯(lián)合進(jìn)行。我們需要繼承Dataset來定義自己的數(shù)據(jù)集類,然后在訓(xùn)練時(shí)用Dataloader加載自定義的數(shù)據(jù)集類。
1. 繼承Dataset類并重寫關(guān)鍵方法
pytorch的dataset類有兩種:Map-style datasets和Iterable-style datasets。前者是我們常用的結(jié)構(gòu),而后者是當(dāng)數(shù)據(jù)集難以(或不可能)進(jìn)行隨機(jī)讀取時(shí)使用。在這里我們實(shí)現(xiàn)Map-style dataset。
繼承torch.utils.data.Dataset后,需要重寫的方法有:__len__與__getitem__方法,其中__len__方法需要返回所有數(shù)據(jù)的數(shù)量,而__getitem__則是要依照給出的數(shù)據(jù)索引獲取對(duì)應(yīng)的tensor類型的Sample,除了這兩個(gè)方法以外,一般還需要實(shí)現(xiàn)__init__方法來初始化一些變量。話不多說,直接上代碼。
'''
包括了各種數(shù)據(jù)集的讀取處理,以及圖像相關(guān)處理方法
'''
from torch.utils.data import Dataset
import torch
import os
import cv2
from Config import mycfg
import random
import numpy as np
class ImageClassifyDataset(Dataset):
def __init__(self, imagedir, labelfile, classify_num, train=True):
'''
這里進(jìn)行一些初始化操作。
'''
self.imagedir = imagedir
self.labelfile = labelfile
self.classify_num = classify_num
self.img_list = []
# 讀取標(biāo)簽
with open(self.labelfile, 'r') as fp:
lines = fp.readlines()
for line in lines:
filepath = os.path.join(self.imagedir, line.split(";")[0].replace('\\', '/'))
label = line.split(";")[1].strip('\n')
self.img_list.append((filepath, label))
if not train:
self.img_list = random.sample(self.img_list, 50)
def __len__(self):
return len(self.img_list)
def __getitem__(self, item):
'''
這個(gè)函數(shù)是關(guān)鍵,通過item(索引)來取數(shù)據(jù)集中的數(shù)據(jù),
一般來說在這里才將圖像數(shù)據(jù)加載入內(nèi)存,之前存的是圖像的保存路徑
'''
_int_label = int(self.img_list[item][1]) # label直接用0,1,2,3,4...表示不同類別
label = torch.tensor(_int_label,dtype=torch.long)
img = self.ProcessImgResize(self.img_list[item][0])
return img, label
def ProcessImgResize(self, filename):
'''
對(duì)圖像進(jìn)行一些預(yù)處理
'''
_img = cv2.imread(filename)
_img = cv2.resize(_img, (mycfg.IMG_WIDTH, mycfg.IMG_HEIGHT), interpolation=cv2.INTER_CUBIC)
_img = _img.transpose((2, 0, 1))
_img = _img / 255
_img = torch.from_numpy(_img)
_img = _img.to(torch.float32)
return _img
有一些的數(shù)據(jù)集類一般還會(huì)傳入一個(gè)transforms函數(shù)來構(gòu)造一個(gè)圖像預(yù)處理序列,傳入transforms函數(shù)的一個(gè)好處是作為參數(shù)傳入的話可以對(duì)一些非本地?cái)?shù)據(jù)集中的數(shù)據(jù)進(jìn)行操作(比如直接通過torchvision獲取的一些預(yù)存數(shù)據(jù)集CIFAR10等等),除此之外就是torchvision.transforms里面有一些預(yù)定義的圖像操作函數(shù),可以直接像拼積木一樣拼成一個(gè)圖像處理序列,很方便。我這里因?yàn)槭怯梦易约合螺d到本地的數(shù)據(jù)集,而且比較簡(jiǎn)單就直接用自己的函數(shù)來操作了。
2. 使用Dataloader加載數(shù)據(jù)
實(shí)例化自定義的數(shù)據(jù)集類ImageClassifyDataset后,將其傳給DataLoader作為參數(shù),得到一個(gè)可遍歷的數(shù)據(jù)加載器??梢酝ㄟ^參數(shù)batch_size控制批處理大小,shuffle控制是否亂序讀取,num_workers控制用于讀取數(shù)據(jù)的線程數(shù)量。
from torch.utils.data import DataLoader
from MyDataset import ImageClassifyDataset
dataset = ImageClassifyDataset(imagedir, labelfile, 10)
dataloader = DataLoader(dataset, batch_size=5, shuffle=True,num_workers=5)
for index, data in enumerate(dataloader):
print(index) # batch索引
print(data) # 一個(gè)batch的{img,label}
二. 模型設(shè)計(jì)
在這里只討論深度學(xué)習(xí)模型的設(shè)計(jì),pytorch中的網(wǎng)絡(luò)結(jié)構(gòu)是一層一層疊出來的,pytorch中預(yù)定義了許多可以通過參數(shù)控制的網(wǎng)絡(luò)層結(jié)構(gòu),比如Linear、CNN、RNN、Transformer等等具體可以查閱官方文檔中的torch.nn部分。
設(shè)計(jì)自己的模型結(jié)構(gòu)需要繼承torch.nn.Module這個(gè)類,然后實(shí)現(xiàn)其中的forward方法,一般在__init__中設(shè)定好網(wǎng)絡(luò)模型的一些組件,然后在forward方法中依據(jù)輸入輸出順序拼裝組件。
'''
包括了各種模型、自定義的loss計(jì)算方法、optimizer
'''
import torch.nn as nn
class Simple_CNN(nn.Module):
def __init__(self, class_num):
super(Simple_CNN, self).__init__()
self.class_num = class_num
self.conv1 = nn.Sequential(
nn.Conv2d( # input: 3,400,600
in_channels=3,
out_channels=8,
kernel_size=5,
stride=1,
padding=2
),
nn.Conv2d(
in_channels=8,
out_channels=16,
kernel_size=5,
stride=1,
padding=2
),
nn.AvgPool2d(2), # 16,400,600 --> 16,200,300
nn.BatchNorm2d(16),
nn.LeakyReLU(),
nn.Conv2d(
in_channels=16,
out_channels=16,
kernel_size=5,
stride=1,
padding=2
),
nn.Conv2d(
in_channels=16,
out_channels=8,
kernel_size=5,
stride=1,
padding=2
),
nn.AvgPool2d(2), # 8,200,300 --> 8,100,150
nn.BatchNorm2d(8),
nn.LeakyReLU(),
nn.Conv2d(
in_channels=8,
out_channels=8,
kernel_size=3,
stride=1,
padding=1
),
nn.Conv2d(
in_channels=8,
out_channels=1,
kernel_size=3,
stride=1,
padding=1
),
nn.AvgPool2d(2), # 1,100,150 --> 1,50,75
nn.BatchNorm2d(1),
nn.LeakyReLU()
)
self.line = nn.Sequential(
nn.Linear(
in_features=50 * 75,
out_features=self.class_num
),
nn.Softmax()
)
def forward(self, x):
x = self.conv1(x)
x = x.view(-1, 50 * 75)
y = self.line(x)
return y
上面我定義的模型中包括卷積組件conv1和全連接組件line,卷積組件中包括了一些卷積層,一般是按照{(diào)卷積層、池化層、激活函數(shù)}的順序拼接,其中我還在激活函數(shù)之前添加了一個(gè)BatchNorm2d層對(duì)上層的輸出進(jìn)行正則化以免傳入激活函數(shù)的值過?。ㄌ荻认В┗蜻^大(梯度爆炸)。
在拼接組件時(shí),由于我全連接層的輸入是一個(gè)一維向量,所以需要將卷積組件中最后的50 × 75 50\times 7550×75大小的矩陣展平成一維的再傳入全連接層(x.view(-1,50*75))
三. 訓(xùn)練
實(shí)例化模型后,網(wǎng)絡(luò)模型的訓(xùn)練需要定義損失函數(shù)與優(yōu)化器,損失函數(shù)定義了網(wǎng)絡(luò)輸出與標(biāo)簽的差距,依據(jù)不同的任務(wù)需要定義不同的合適的損失函數(shù),而優(yōu)化器則定義了神經(jīng)網(wǎng)絡(luò)中的參數(shù)如何基于損失來更新,目前神經(jīng)網(wǎng)絡(luò)最常用的優(yōu)化器就是SGD(隨機(jī)梯度下降算法) 及其變種。
在我這個(gè)簡(jiǎn)單的分類器模型中,直接用的多分類任務(wù)最常用的損失函數(shù)CrossEntropyLoss()以及優(yōu)化器SGD。
self.cnnmodel = Simple_CNN(mycfg.CLASS_NUM)
self.criterion = nn.CrossEntropyLoss() # 交叉熵,標(biāo)簽應(yīng)該是0,1,2,3...的形式而不是獨(dú)熱的
self.optimizer = optim.SGD(self.cnnmodel.parameters(), lr=mycfg.LEARNING_RATE, momentum=0.9)
訓(xùn)練過程其實(shí)很簡(jiǎn)單,使用dataloader依照batch讀出數(shù)據(jù)后,將input放入網(wǎng)絡(luò)模型中計(jì)算得到網(wǎng)絡(luò)的輸出,然后基于標(biāo)簽通過損失函數(shù)計(jì)算Loss,并將Loss反向傳播回神經(jīng)網(wǎng)絡(luò)(在此之前需要清理上一次循環(huán)時(shí)的梯度),最后通過優(yōu)化器更新權(quán)重。訓(xùn)練部分代碼如下:
for each_epoch in range(mycfg.MAX_EPOCH):
running_loss = 0.0
self.cnnmodel.train()
for index, data in enumerate(self.dataloader):
inputs, labels = data
outputs = self.cnnmodel(inputs)
loss = self.criterion(outputs, labels)
self.optimizer.zero_grad() # 清理上一次循環(huán)的梯度
loss.backward() # 反向傳播
self.optimizer.step() # 更新參數(shù)
running_loss += loss.item()
if index % 200 == 199:
print("[{}] loss: {:.4f}".format(each_epoch, running_loss/200))
running_loss = 0.0
# 保存每一輪的模型
model_name = 'classify-{}-{}.pth'.format(each_epoch,round(all_loss/all_index,3))
torch.save(self.cnnmodel,model_name) # 保存全部模型
四. 測(cè)試
測(cè)試和訓(xùn)練的步驟差不多,也就是讀取模型后通過dataloader獲取數(shù)據(jù)然后將其輸入網(wǎng)絡(luò)獲得輸出,但是不需要進(jìn)行反向傳播的等操作了。比較值得注意的可能就是準(zhǔn)確率計(jì)算方面有一些小技巧。
acc = 0.0
count = 0
self.cnnmodel = torch.load('mymodel.pth')
self.cnnmodel.eval()
for index, data in enumerate(dataloader_eval):
inputs, labels = data # 5,3,400,600 5,10
count += len(labels)
outputs = cnnmodel(inputs)
_,predict = torch.max(outputs, 1)
acc += (labels == predict).sum().item()
print("[{}] accurancy: {:.4f}".format(each_epoch, acc / count))
我這里采用的是保存全部模型并加載全部模型的方法,這種方法的好處是在使用模型時(shí)可以完全將其看作一個(gè)黑盒,但是在模型比較大時(shí)這種方法會(huì)很費(fèi)事。此時(shí)可以采用只保存參數(shù)不保存網(wǎng)絡(luò)結(jié)構(gòu)的方法,在每一次使用模型時(shí)需要讀取參數(shù)賦值給已經(jīng)實(shí)例化的模型:
torch.save(cnnmodel.state_dict(), "my_resnet.pth")
cnnmodel = Simple_CNN()
cnnmodel.load_state_dict(torch.load("my_resnet.pth"))
結(jié)語
至此整個(gè)流程就說完了,是一個(gè)小白級(jí)的圖像分類任務(wù)流程,因?yàn)榍岸螘r(shí)間一直在做android方面的事,所以有點(diǎn)生疏了,就寫了這篇博客記錄一下,之后應(yīng)該還會(huì)寫一下seq2seq以及image caption任務(wù)方面的模型構(gòu)造與訓(xùn)練過程,完整代碼之后也會(huì)統(tǒng)一放到github上給大家做參考。
以上就是基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器的詳細(xì)內(nèi)容,更多關(guān)于PyTorch實(shí)現(xiàn)CNN圖像分類器的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
您可能感興趣的文章:- pytorch實(shí)現(xiàn)textCNN的具體操作
- Pytorch mask-rcnn 實(shí)現(xiàn)細(xì)節(jié)分享
- Pytorch 使用CNN圖像分類的實(shí)現(xiàn)
- pytorch實(shí)現(xiàn)CNN卷積神經(jīng)網(wǎng)絡(luò)
- 用Pytorch訓(xùn)練CNN(數(shù)據(jù)集MNIST,使用GPU的方法)
- PyTorch CNN實(shí)戰(zhàn)之MNIST手寫數(shù)字識(shí)別示例
- PyTorch上實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)CNN的方法
- CNN的Pytorch實(shí)現(xiàn)(LeNet)