作者clansoda (小笨)
看板DataScience
標題[問題] 斷崖式模型損壞
時間Sun Oct 4 15:10:40 2020
各位好,前陣子拿到imagenet因此想試試看能不能重現alexnet的表現
我目前的問題是前面10幾個epochs都能正常的訓練
我的error是用BCE reduce = sum
第一個epoch訓練完之後training error是6點多
但是10幾個epochs之後會突然出現error從3點多暴跌到100
多的情況 accuracy也從top5 = 50多%變成0%
之前訓練其他模型沒有遇過這種情況
想請問有甚麼可能會遇上這樣斷崖式的模型崩壞嗎
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.15.129 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1601795443.A.AA6.html
1F:推 wtchen: 感覺上是梯度下降走的太快,不小心滑出Loss local min? 10/04 18:28
2F:→ clansoda: wt大,我使用的是ranger optimizer lr=1e-4 10/04 20:10
3F:→ clansoda: 我的想法是如果學習率太大,他是不是應該早點崩掉 10/04 20:11
4F:→ clansoda: 而不是已經走了10幾個epochs才壞掉呢? 10/04 20:11
5F:推 wtchen: 學習率太高是有可能先降後崩掉 10/04 21:07
7F:→ wtchen: 若不能降學習率,加入一些懲罰項或normalization 10/04 21:09
8F:→ wtchen: 也許能幫助模型穩定 10/04 21:09
9F:推 DiscreteMath: 感覺很像是learning rate問題,可以做learning rate 10/09 21:57
10F:→ DiscreteMath: scheduling,或是gradient clipping. 訓練到後期常常 10/09 21:57
11F:→ DiscreteMath: lr會設到非常低 10/09 21:57
12F:→ DiscreteMath: 防止跳出或是走不到local min 10/09 21:57
13F:→ chang1248w: 感覺是pipline有髒東西或者你code有錯 10/14 01:14