之前有寫過一篇如何使用Pytorch實現(xiàn)two-head(多輸出)模型
在那篇文章里,基本把two-head網(wǎng)絡以及構建講清楚了(如果不清楚請先移步至那一篇博文)。
但是我后來發(fā)現(xiàn)之前的訓練方法貌似有些問題。
以前的訓練方法:
之前是把兩個head分開進行訓練的,因此每一輪訓練先要對一個batch的數(shù)據(jù)進行劃分,然后再分別訓練兩個頭。代碼如下:
f_out_y0, _ = net(x0)
_, f_out_y1 = net(x1)
#實例化損失函數(shù)
criterion0 = Loss()
criterion1 = Loss()
loss0 = criterion0(f_y0, f_out_y0, w0)
loss1 = criterion1(f_y1, f_out_y1, w1)
print(loss0.item(), loss1.item())
#對網(wǎng)絡參數(shù)進行初始化
optimizer.zero_grad()
loss0.backward()
loss1.backward()
#對網(wǎng)絡的參數(shù)進行更新
optimizer.step()
但是在實際操作中想到那這樣的話豈不是每次都先使用t=0的數(shù)據(jù)訓練公共的表示層,再使用t=1的數(shù)據(jù)去訓練。這樣會不會使表示層產(chǎn)生bias呢?且這樣兩步訓練也很麻煩。
修改后的方法
使用之前訓練方法其實還是對神經(jīng)網(wǎng)絡的訓練的機理不清楚。事實上,在計算loss的時候每個數(shù)據(jù)點的梯度都是單獨計算的。
因此完全可以把網(wǎng)絡前向傳播得到結果按之前的順序拼接起來后再進行梯度的反向傳播,這樣就可以只進行一步訓練,且不會出現(xiàn)訓練先后的偏差。
代碼如下:
f_out_y0, cf_out_y0 = net(x0)
cf_out_y1, f_out_y1 = net(x1)
#按照t=0和t=1的索引拼接向量
y_pred = torch.zeros([len(x), 1])
y_pred[index0] = f_out_y0
y_pred[index1] = f_out_y1
criterion = Loss()
loss = criterion(f_y, y_pred, w) + 0.01 * (l2_regularization0 + l2_regularization1)
#print(loss.item())
viz.line([float(loss)], [epoch], win='train_loss', update='append')
optimizer.zero_grad()
loss.backward()
#對網(wǎng)絡的參數(shù)進行更新
optimizer.step()
總結
two-head網(wǎng)絡前向傳播得到結果的時候是分開得到的,訓練的時候通過拼接預測結果可以實現(xiàn)一次訓練。
補充:Pytorch訓練網(wǎng)絡的一般步驟
如下所示:
import torch
print(torch.tensor([1,2,3],dtype=torch.float))#將一個列表強制轉(zhuǎn)換為torch.Tensor類型
print(torch.randn(5,3))#生成torch.Tensor類型的5X3的隨機數(shù)
1、構建模型
2、定義一個損失函數(shù)
3、定義一個優(yōu)化器
4、將訓練數(shù)據(jù)帶入模型得到預測值
5、將梯度清零
6、獲得損失
7、進行優(yōu)化
import torch
from torch.autograd import Variable
#初步認識構建Tensor數(shù)據(jù)
def one():
print(torch.tensor([1,2,3],dtype=torch.float))#將一個列表強制轉(zhuǎn)換為torch.Tensor類型
print(torch.randn(5,3))#生成torch.Tensor類型的5X3的隨機數(shù)
print(torch.zeros((2,3)))#生成一個2X3的全零矩陣
print(torch.ones((2,3)))#生成一個2X3的全一矩陣
a = torch.randn((2,3))
b = a.numpy()#將一個torch.Tensor轉(zhuǎn)換為numpy
c = torch.from_numpy(b)#將numpy轉(zhuǎn)換為Tensor
print(a)
print(b)
print(c)
#使用Variable自動求導
def two():
# 構建Variable
x = Variable(torch.Tensor([1, 2, 3]), requires_grad=True)
w = Variable(torch.Tensor([4, 5, 6]), requires_grad=True)
b = Variable(torch.Tensor([7, 8, 9]), requires_grad=True)
# 函數(shù)等式
y = w * x ** 2 + b
# 使用梯度下降計算各變量的偏導數(shù)
y.backward(torch.Tensor([1, 1, 1]))
print(x.grad)
print(w.grad)
print(b.grad)
線性回歸例子:
import torch
from torch.autograd import Variable
import numpy as np
import matplotlib.pyplot as plt
from torch import nn
x = torch.unsqueeze(torch.linspace(-1,1,100),dim=1)
y = 3*x+10+torch.rand(x.size())
class LinearRegression(nn.Module):
def __init__(self):
super(LinearRegression,self).__init__()
self.Linear = nn.Linear(1,1)
def forward(self,x):
return self.Linear(x)
model = LinearRegression()
Loss = nn.MSELoss()
Opt = torch.optim.SGD(model.parameters(),lr=0.01)
for i in range(1000):
inputs = Variable(x)
targets = Variable(y)
outputs = model(inputs)
loss = Loss(outputs,targets)
Opt.zero_grad()
loss.backward()
Opt.step()
model.eval()
predict = model(Variable(x))
plt.plot(x.numpy(),y.numpy(),'ro')
plt.plot(x.numpy(),predict.data.numpy())
plt.show()
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
您可能感興趣的文章:- pytorch 實現(xiàn)在一個優(yōu)化器中設置多個網(wǎng)絡參數(shù)的例子
- pytorch構建網(wǎng)絡模型的4種方法
- PyTorch快速搭建神經(jīng)網(wǎng)絡及其保存提取方法詳解
- pytorch 更改預訓練模型網(wǎng)絡結構的方法