作者NMOSFET (NMOSFET)

看板DataScience

標題

[問題] 全捲積網路(FCN) 在YOLOV2上訓練的問題

時間Mon Apr 16 14:18:42 2018

問題類別: CNN 問題內容: 請問各位大大 YOLOV2 的架構因為沒有全連接層(都用捲積層取代)，所以在訓練的時候，可以輸入任意大小的圖片做訓練但輸入任意大小的圖片，經過整個模型，算到最後的 feature map 大小不是會不一樣嗎? 而 YOLOV2 最後的feature map 大小是 13*13*125(125是5個bbox的資訊) 再拿13*13*125的 feature map 去算 detection 的 loss，那這樣怎麼會對得起來? 還是說會根據最後一層的 feature map 大小去調整對應的 loss ? 小弟一直卡在這邊，能否請各位大大幫忙解惑一下，感恩! 論文名稱:YOLO9000: Better, Faster, Stronger --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.18.104.168 ※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1523859524.A.530.html

1^F：→ jackwang01: 記得沒錯的話他有做resize的動作04/16 14:26

resize 是指 loss 架構嗎? ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:05:41 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:59:53 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 16:05:15

2^F：推 hl4: 進到model之前可能先resize過了04/16 17:07

3^F：推 OnePiecePR: 應該就是ㄧ二樓的講法。前端進入麻豆前 resize, 作出104/16 18:14

4^F：→ OnePiecePR: 3*13的 grids 才能 meet model 的處理。04/16 18:14

5^F：推 f496328mm: resize 是指縮放圖片的大小例如 640*320 - > 13*1304/16 22:10

那請問一下，同樣的圖片，不同解析度，一張是1600*1600，另一張800*800,兩張圖片同樣resize變成416*416,解析度的品質一樣嗎 ※ 編輯: NMOSFET (1.175.73.141), 04/16/2018 23:51:42

6^F：推 KyotoAnime: 呃前者也許比較好一點點吧但這幾乎不會是個issue04/17 00:34

7^F：推 jameszhan: 解析度變怎樣沒有考慮的必要因為不resize連餵都不能04/17 01:25

8^F：→ jameszhan: 餵04/17 01:25

9^F：推 jameszhan: 另外能輸入任意大小是因為有resize 跟有沒有全連接層無04/17 01:27

10^F：→ jameszhan: 關吧04/17 01:27

11^F：推 jameszhan: 建議再看一下神經網路裡矩陣運算的方式04/17 01:29

Yolov2是每10個epoch更改(resize)輸入圖片的維度，但CNN detection 架構是不變的，我想問的是，最後一個feature map 大小不一樣，是怎麼算LOSS

12^F：推 KyotoAnime: 上面幾樓好像怪怪的 yolo確實有resize 但yolov2 可沒04/17 02:07

13^F：→ KyotoAnime: 有04/17 02:07

14^F：→ KyotoAnime: 不應該說yolov2的resize是故意讓他變得不一樣大小04/17 02:08

15^F：→ KyotoAnime: Fc layer本來就會限制input dimension conv layer就04/17 02:09

16^F：→ KyotoAnime: 不受限04/17 02:09

17^F：→ KyotoAnime: 至於原po說的loss function需要調整這件事04/17 02:09

18^F：推 KyotoAnime: 我是沒仔細看啦不過loss function通常是sigma 你的04/17 02:12

19^F：→ KyotoAnime: 圖像變了 sigma項數就改變了而已在實作上甚至不用改c04/17 02:12

20^F：→ KyotoAnime: ode 想想numpy.sum()不管有幾個element寫法也都是一04/17 02:12

21^F：→ KyotoAnime: 樣 04/17 02:12

謝謝k大，我在想說最後一個feature map 會不會 reshape成13*13 *125 還是不 reshap e 直接？*？*125 丟進loss 去算

22^F：推 EGsux: 如果800*800會變成416*416 那1600*800 會變成832*416 13*1304/17 07:03

23^F：→ EGsux: 變26*13 這樣會不會比較好懂04/17 07:03

所以意思是說一張圖片分成26*13 grid 還是兩組13*13 grid 去算Loss

24^F：推 leoloveivy: 原po是說multiscale trainging 嗎04/17 10:48

25^F：→ leoloveivy: 反正label都是0-1之間04/17 10:48

26^F：→ leoloveivy: 所以其實還會有一個label 轉換04/17 10:48

27^F：→ leoloveivy: 看你feature map w h多少做轉換04/17 10:48

28^F：→ leoloveivy: 那這樣就可以算loss04/17 10:48

29^F：推 leoloveivy: detection 跟classfication不太一樣04/17 10:52

30^F：→ leoloveivy: resize再進去一定有差04/17 10:52

沒錯就是 multiscale trainging ，轉換的意思是轉成13*13嗎？ ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 11:26:19 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:41:20 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:52:40

31^F：推 leoloveivy: 應該是轉換你feature map的大小吧 04/17 13:18

32^F：推 KyotoAnime: 第一改變大小不叫reshape 是resize reshape是面積不 04/17 16:56

33^F：→ KyotoAnime: 變形狀改變 04/17 16:56

34^F：推 KyotoAnime: 第二他回歸出的東西就是bb 應該不需要resize 如果res 04/17 16:59

35^F：→ KyotoAnime: ize要怎摸做 bilinear? 但裡面除了bb的座標還有信心 04/17 16:59

36^F：→ KyotoAnime: 機率 bilinear會很怪沒有resize的意義 04/17 16:59

37^F：→ leoloveivy: 還是我打成這樣會造成誤會 04/17 17:43

38^F：→ leoloveivy: 應該說你predict出來的都不要動 04/17 17:43

39^F：→ leoloveivy: 然後label因為已經normalize 04/17 17:43

40^F：→ leoloveivy: 所以乘上你predict W H之後 04/17 17:43

41^F：→ leoloveivy: 就算BEST OVERLAPPING在哪個ANCHOR BOX之後在做成GT 04/17 17:43

42^F：→ leoloveivy: 會像這樣 predict =p 04/17 17:43

43^F：→ leoloveivy: gt=[batch,p_w ,p_h,bestanchor,:]=xywh 04/17 17:43

44^F：→ leoloveivy: wh該取log就取 04/17 17:43

45^F：→ leoloveivy: xy改以grid為中心就做 04/17 17:43

46^F：→ leoloveivy: 我的理解是這樣有錯再指正感謝 04/17 17:44

47^F：推 goldflower: multiscale training的部分出來的feature map就不是 04/17 18:57

48^F：→ goldflower: 13x13囉他每次採取不同scale時都會對應不同size 04/17 18:57

49^F：→ goldflower: 從320 - 608分別對應10 - 19 在論文裡有這塊 04/17 18:58

50^F：推 goldflower: 還是我搞錯你要問的意思XD 04/17 19:01

51^F：推 goldflower: 喔喔我看到你回文了請忽略我上述 04/17 19:08

52^F：推 goldflower: 他的loss的確是照grid size去調整的 04/17 19:31

53^F：→ goldflower: 所以我是認為他前面的darknet19在multi-scale 04/17 19:32

54^F：→ goldflower: training那邊有點像multi-task learning中的shared 04/17 19:32

55^F：→ goldflower: layer 但是後面分別對應不同的loss計算方式 04/17 19:32

謝謝g大，我想知道的就是這個，我直接去github看別人的程式碼，input size 320 ~ 608(32的倍數) 對應到算loss 的 grid size 也會跟著改變 10 ~ 19 這樣真的很感謝上面各位大大為小弟解惑，感謝你們! ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:11:17 ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:15:17

56^F：→ goldflower: 讚讚想問你看哪個github有所有步驟都實作出來的啊XD 04/18 16:02

57^F：→ NMOSFET: https://github.com/leetenki/YOLOv2 04/23 20:07

58^F：→ NMOSFET: g大抱歉，現在才看到妳的留言 04/23 20:07

59^F：→ goldflower: 這好像蠻精美的XD 感謝分享 04/24 13:15

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

DataScience 板

[問題] 全捲積網路(FCN) 在YOLOV2上訓練的問題

熱門看板

贊助商連結