作者fragmentwing (片翼碎梦)
看板DataScience
标题[问题] 验证的accuarcy完全没变
时间Thu Mar 9 12:42:05 2023
在练习用VGG16做分类,我用这篇的程式码下去改的
https://reurl.cc/RvvG9x
VGG16的部分和他这篇不一样不是用预设而是用写的
问题在於,进行训练的时候Testing acc一直都是0.500,而acc都在0.5附近上下跳动
也就是说好像根本没有学习到
进行训练的程式码如下:
(基本与那篇相同,这里只是将原文中的C改成model,并且把label的type改成tensor)
if __name__ == '__main__':
for epoch in range(epochs):
start_time = time.time()
iter = 0
correct_train, total_train = 0, 0
correct_test, total_test = 0, 0
train_loss_C = 0.0
model.train() # 设定 train 或 eval
print('epoch: ' + str(epoch + 1) + ' / ' + str(epochs))
# ---------------------------
# Training Stage
# ---------------------------
for i, (x, label) in enumerate(train_dataloader) :
label = label.type(torch.LongTensor)
x, label = x.to(device), label.to(device)
optimizer_C.zero_grad() # 清空梯度
train_output = model(x)
train_loss = criterion(train_output, label) # 计算 loss
train_loss.backward() # 将 loss 反向传播
optimizer_C.step() # 更新权重
# 计算训练资料的准确度 (correct_train / total_train)
_, predicted = torch.max(train_output.data, 1)
total_train += label.size(0)
correct_train += (predicted == label).sum()
train_loss_C += train_loss.item()
iter += 1
print('Training epoch: %d / loss_C: %.3f | acc: %.3f' % \
(epoch + 1, train_loss_C / iter, correct_train / total_train))
# --------------------------
# Testing Stage
# --------------------------
model.eval() # 设定 train 或 eval
for i, (x, label) in enumerate(test_dataloader) :
with torch.no_grad():
label = label.type(torch.LongTensor)
x, label = x.to(device), label.to(device)
test_output = model(x)
test_loss = criterion(test_output, label) # 计算 loss
# 计算测试资料的准确度 (correct_test / total_test)
_, predicted = torch.max(test_output.data, 1)
total_test += label.size(0)
correct_test += (predicted == label).sum()
print('Testing acc: %.3f' % (correct_test / total_test))
train_acc.append(100 * (correct_train / total_train).cpu()) #
training accuracy
test_acc.append(100 * (correct_test / total_test).cpu()) # testing
accuracy
loss_epoch_C.append((train_loss_C / iter)) # loss
end_time = time.time()
print('Cost %.3f(secs)' % (end_time - start_time))
指定epochs只跑3次,得到以下结果:
epoch: 1 / 3
Training epoch: 1 / loss_C: 0.693 | acc: 0.514
Testing acc: 0.500
Cost 21.822(secs)
epoch: 2 / 3
Training epoch: 2 / loss_C: 0.693 | acc: 0.475
Testing acc: 0.500
Cost 23.002(secs)
epoch: 3 / 3
Training epoch: 3 / loss_C: 0.693 | acc: 0.476
Testing acc: 0.500
Cost 22.669(secs)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.77.144.160 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1678336929.A.EBC.html
1F:推 jigfopsda: 我猜是 train 坏了,调看看 lr 或变数印出来看看有没有 03/09 17:53
2F:→ jigfopsda: bug 03/09 17:53
3F:推 st1009: 没有设定optimizer的程式吗? 03/09 19:58
4F:→ lycantrope: 复制贴上没错的话就是VGG写错了 03/09 22:53
5F:→ fragmentwing: optimizer有写只是放在更前面指定 lr调过几次都不影 03/09 23:19
6F:→ fragmentwing: 响这个问题 03/09 23:19
7F:→ fragmentwing: 主要是担心因为我看到有人说是pytorch使用gpu时造成 03/09 23:19
8F:→ fragmentwing: 的bug(不过他的案例是不要用adam就行 但我这边一开 03/09 23:19
9F:→ fragmentwing: 始用的就是sgd) 03/09 23:19
10F:→ truehero: train loss 完全没变阿, 把第一个batch资料全印出来比对 03/10 00:27
11F:→ fragmentwing: 呜呜想说换另一个人写的vgg下来代,结果gpu记忆体 03/10 19:24
12F:→ fragmentwing: 不足,请问3070真的还不够vgg16用吗? 03/10 19:25
13F:→ wuyiulin: 你 batch_size 开多少?3070 只有 8GB当然容易爆开 03/10 23:28
14F:推 st1009: 3070应该是可以train vgg16的吧,但这东西容易炸 03/11 08:04
15F:→ st1009: 建议看一下板规2-2 03/11 08:04
16F:推 st1009: 其实optimizer可能影响这问题,我写过vgg16... 03/11 08:07
17F:推 st1009: 刚刚卜一卦,卦象告诉我你的问题是"梯度消失" 03/11 08:37
18F:→ fragmentwing: 感谢建议 我看看怎麽解 03/11 13:35
19F:→ st1009: 其实如果还是不行,可以用pastebin把完整程式贴上来(? 03/13 07:19
20F:推 kaltu: 梯度消失也很难消失得这麽彻底到好像完全没做back propagat 03/18 07:06
21F:→ kaltu: ion一样 03/18 07:06
22F:→ kaltu: 坏的这麽漂亮的状况我投bug一票 03/18 07:06
23F:→ st1009: 之前试过lr bs设错会这样,才想说让他看2-2贴完整的程式 03/18 08:26
24F:→ st1009: bug有机会,只是目前贴出来的部分看起来没问题 03/18 08:28
25F:→ fragmentwing: 後来终於搞懂整个pytorch主要架构後再回来挑战一次 04/28 02:41
26F:→ fragmentwing: 把整个程式重写後发现loss根本没在动 04/28 02:41
27F:→ fragmentwing: 查了很久最後发现有人说VGG不能用ADAM(他还说这很 04/28 02:41
28F:→ fragmentwing: 知名,那我怎麽找这麽久才找到QQ,而且我看有人做CI 04/28 02:41
29F:→ fragmentwing: FAR10一样用ADAM啊) 04/28 02:41
30F:→ fragmentwing: 改用SGD之後表现就正常多了(虽然还是满烂的,accura 04/28 02:41
31F:→ fragmentwing: cy和precision差不多在80%) 04/28 02:41
32F:→ fragmentwing: 还有SGD吃资源好像比较凶,用ADAM大概6.0G,用SGD吃 04/28 02:41
33F:→ fragmentwing: 到7.9G差点到显卡极限 04/28 02:41
34F:→ fragmentwing: 等到我把存档等等细节也搞定後再来看看怎麽用板上提 04/28 02:41
35F:→ fragmentwing: 供的东西把整个模型贴上来 04/28 02:41
36F:→ fragmentwing: 喔对了我这边目前只分两类 04/28 02:51