自己寫了個dataloader,為了部署方便,用OpenCV的接口進行數(shù)據(jù)讀取,而沒有用PIL,代碼大致如下:
def __getitem__(self, idx): sample = self.samples[idx] img = cv2.imread(sample[0]) img = cv2.resize(img, tuple(self.input_size)) img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # if not self.val and random.randint(1, 10) 3: # img = self.img_aug(img) img = Image.fromarray(img) img = self.transforms(img) ...
結(jié)果在訓練過程中,在第1個epoch的最后一個batch時,程序卡死。
可能是因為OpenCV與Pytorch互鎖的問題,關(guān)閉OpenCV的多線程,問題解決。
cv2.setNumThreads(0) cv2.ocl.setUseOpenCL(False)
補充:pytorch 中一個batch的訓練過程
# 一般情況下 optimizer.zero_grad() # 梯度清零 preds = model(inputs) # inference,前向傳播求出預測值 loss = criterion(preds, targets) # 計算loss loss.backward() # 反向傳播求解梯度 optimizer.step() # 更新權(quán)重,更新網(wǎng)絡(luò)權(quán)重參數(shù)
此外,反向傳播前,如果不進行梯度清零,則可以實現(xiàn)梯度累加,從而一定程度上解決顯存受限的問題。
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。