主頁 > 知識庫 > PyTorch梯度裁剪避免訓(xùn)練loss nan的操作

PyTorch梯度裁剪避免訓(xùn)練loss nan的操作

熱門標(biāo)簽:電銷機(jī)器人的風(fēng)險 河北防封卡電銷卡 開封自動外呼系統(tǒng)怎么收費(fèi) 400電話辦理哪種 開封語音外呼系統(tǒng)代理商 應(yīng)電話機(jī)器人打電話違法嗎 手機(jī)網(wǎng)頁嵌入地圖標(biāo)注位置 天津電話機(jī)器人公司 地圖標(biāo)注線上如何操作

近來在訓(xùn)練檢測網(wǎng)絡(luò)的時候會出現(xiàn)loss為nan的情況,需要中斷重新訓(xùn)練,會很麻煩。因而選擇使用PyTorch提供的梯度裁剪庫來對模型訓(xùn)練過程中的梯度范圍進(jìn)行限制,修改之后,不再出現(xiàn)loss為nan的情況。

PyTorch中采用torch.nn.utils.clip_grad_norm_來實現(xiàn)梯度裁剪,鏈接如下:

https://pytorch.org/docs/stable/_modules/torch/nn/utils/clip_grad.html

訓(xùn)練代碼使用示例如下:

from torch.nn.utils import clip_grad_norm_
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
# clip the grad
clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)
optimizer.step()

其中,max_norm為梯度的最大范數(shù),也是梯度裁剪時主要設(shè)置的參數(shù)。

備注:網(wǎng)上有同學(xué)提醒在(強(qiáng)化學(xué)習(xí))使用了梯度裁剪之后訓(xùn)練時間會大大增加。目前在我的檢測網(wǎng)絡(luò)訓(xùn)練中暫時還沒有碰到這個問題,以后遇到再來更新。

補(bǔ)充:pytorch訓(xùn)練過程中出現(xiàn)nan的排查思路

1、最常見的就是出現(xiàn)了除0或者log0這種

看看代碼中在這種操作的時候有沒有加一個很小的數(shù),但是這個數(shù)數(shù)量級要和運(yùn)算的數(shù)的數(shù)量級要差很多。一般是1e-8。

2、在optim.step()之前裁剪梯度

optim.zero_grad()
loss.backward()
nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)
optim.step()

max_norm一般是1,3,5。

3、前面兩條還不能解決nan的話

就按照下面的流程來判斷。

...
loss = model(input)
# 1. 先看loss是不是nan,如果loss是nan,那么說明可能是在forward的過程中出現(xiàn)了第一條列舉的除0或者log0的操作
assert torch.isnan(loss).sum() == 0, print(loss)
optim.zero_grad()
loss.backward()
# 2. 如果loss不是nan,那么說明forward過程沒問題,可能是梯度爆炸,所以用梯度裁剪試試
nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)
# 3.1 在step之前,判斷參數(shù)是不是nan, 如果不是判斷step之后是不是nan
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
optim.step()
# 3.2 在step之后判斷,參數(shù)和其梯度是不是nan,如果3.1不是nan,而3.2是nan,
# 特別是梯度出現(xiàn)了Nan,考慮學(xué)習(xí)速率是否太大,調(diào)小學(xué)習(xí)速率或者換個優(yōu)化器試試。
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • Pytorch訓(xùn)練過程出現(xiàn)nan的解決方式
  • pytorch 權(quán)重weight 與 梯度grad 可視化操作
  • PyTorch 如何檢查模型梯度是否可導(dǎo)
  • 淺談pytorch中為什么要用 zero_grad() 將梯度清零
  • PyTorch 如何自動計算梯度
  • pytorch 梯度NAN異常值的解決方案

標(biāo)簽:山東 常州 蘭州 駐馬店 六盤水 宿遷 江蘇 成都

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《PyTorch梯度裁剪避免訓(xùn)練loss nan的操作》,本文關(guān)鍵詞  PyTorch,梯度,裁剪,避免,訓(xùn)練,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《PyTorch梯度裁剪避免訓(xùn)練loss nan的操作》相關(guān)的同類信息!
  • 本頁收集關(guān)于PyTorch梯度裁剪避免訓(xùn)練loss nan的操作的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章