DataScience 板


LINE

問題類別: CNN 問題內容: 請問各位大大 YOLOV2 的架構因為沒有全連接層(都用捲積層取代), 所以在訓練的時候,可以輸入任意大小的圖片做訓練 但輸入任意大小的圖片,經過整個模型, 算到最後的 feature map 大小不是會不一樣嗎? 而 YOLOV2 最後的feature map 大小是 13*13*125(125是5個bbox的資訊) 再拿13*13*125的 feature map 去算 detection 的 loss, 那這樣怎麼會對得起來? 還是說會根據最後一層的 feature map 大小去調整對應的 loss ? 小弟一直卡在這邊, 能否請各位大大幫忙解惑一下, 感恩! 論文名稱:YOLO9000: Better, Faster, Stronger --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.18.104.168
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1523859524.A.530.html
1F:→ jackwang01: 記得沒錯的話他有做resize的動作04/16 14:26
resize 是指 loss 架構嗎? ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:05:41 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:59:53 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 16:05:15
2F:推 hl4: 進到model之前可能先resize過了04/16 17:07
3F:推 OnePiecePR: 應該就是ㄧ二樓的講法。前端進入麻豆前 resize, 作出104/16 18:14
4F:→ OnePiecePR: 3*13的 grids 才能 meet model 的處理。04/16 18:14
5F:推 f496328mm: resize 是指縮放圖片的大小 例如 640*320 - > 13*1304/16 22:10
那請問一下,同樣的圖片,不同解析度,一張是1600*1600,另一張800*800,兩張圖片同 樣resize變成416*416,解析度的品質 一樣嗎 ※ 編輯: NMOSFET (1.175.73.141), 04/16/2018 23:51:42
6F:推 KyotoAnime: 呃 前者也許比較好一點點吧 但這幾乎不會是個issue04/17 00:34
7F:推 jameszhan: 解析度變怎樣沒有考慮的必要 因為不resize連餵都不能04/17 01:25
8F:→ jameszhan: 餵04/17 01:25
9F:推 jameszhan: 另外能輸入任意大小是因為有resize 跟有沒有全連接層無04/17 01:27
10F:→ jameszhan: 關吧04/17 01:27
11F:推 jameszhan: 建議再看一下神經網路裡矩陣運算的方式04/17 01:29
Yolov2是每10個epoch更改(resize)輸入圖片的維度,但CNN detection 架構是不變的, 我想問的是,最後一個feature map 大小不一樣,是怎麼算LOSS
12F:推 KyotoAnime: 上面幾樓好像怪怪的 yolo確實有resize 但yolov2 可沒04/17 02:07
13F:→ KyotoAnime: 有04/17 02:07
14F:→ KyotoAnime: 不 應該說yolov2的resize是故意讓他變得不一樣大小04/17 02:08
15F:→ KyotoAnime: Fc layer本來就會限制input dimension conv layer就04/17 02:09
16F:→ KyotoAnime: 不受限04/17 02:09
17F:→ KyotoAnime: 至於原po說的loss function需要調整這件事04/17 02:09
18F:推 KyotoAnime: 我是沒仔細看啦 不過loss function通常是sigma 你的04/17 02:12
19F:→ KyotoAnime: 圖像變了 sigma項數就改變了而已 在實作上甚至不用改c04/17 02:12
20F:→ KyotoAnime: ode 想想numpy.sum()不管有幾個element寫法也都是一04/17 02:12
21F:→ KyotoAnime: 樣 04/17 02:12
謝謝k大,我在想說最後一個feature map 會不會 reshape成13*13 *125 還是 不 reshap e 直接 ?*?*125 丟進loss 去算
22F:推 EGsux: 如果800*800會變成416*416 那1600*800 會變成832*416 13*1304/17 07:03
23F:→ EGsux: 變26*13 這樣會不會比較好懂04/17 07:03
所以意思是說 一張圖片分成26*13 grid 還是 兩組13*13 grid 去算Loss
24F:推 leoloveivy: 原po是說multiscale trainging 嗎04/17 10:48
25F:→ leoloveivy: 反正label都是0-1之間04/17 10:48
26F:→ leoloveivy: 所以其實還會有一個label 轉換04/17 10:48
27F:→ leoloveivy: 看你feature map w h多少做轉換04/17 10:48
28F:→ leoloveivy: 那這樣就可以算loss04/17 10:48
29F:推 leoloveivy: detection 跟classfication不太一樣04/17 10:52
30F:→ leoloveivy: resize再進去一定有差04/17 10:52
沒錯就是 multiscale trainging ,轉換的意思是轉成13*13嗎? ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 11:26:19 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:41:20 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:52:40
31F:推 leoloveivy: 應該是轉換你feature map的大小吧 04/17 13:18
32F:推 KyotoAnime: 第一改變大小不叫reshape 是resize reshape是面積不 04/17 16:56
33F:→ KyotoAnime: 變 形狀改變 04/17 16:56
34F:推 KyotoAnime: 第二 他回歸出的東西就是bb 應該不需要resize 如果res 04/17 16:59
35F:→ KyotoAnime: ize要怎摸做 bilinear? 但裡面除了bb的座標 還有信心 04/17 16:59
36F:→ KyotoAnime: 機率 bilinear會很怪 沒有resize的意義 04/17 16:59
37F:→ leoloveivy: 還是我打成這樣會造成誤會 04/17 17:43
38F:→ leoloveivy: 應該說你predict出來的都不要動 04/17 17:43
39F:→ leoloveivy: 然後label因為已經normalize 04/17 17:43
40F:→ leoloveivy: 所以乘上你predict W H之後 04/17 17:43
41F:→ leoloveivy: 就算BEST OVERLAPPING在哪個ANCHOR BOX之後在做成GT 04/17 17:43
42F:→ leoloveivy: 會像這樣 predict =p 04/17 17:43
43F:→ leoloveivy: gt=[batch,p_w ,p_h,bestanchor,:]=xywh 04/17 17:43
44F:→ leoloveivy: wh該取log就取 04/17 17:43
45F:→ leoloveivy: xy改以grid為中心就做 04/17 17:43
46F:→ leoloveivy: 我的理解是這樣有錯再指正感謝 04/17 17:44
47F:推 goldflower: multiscale training的部分出來的feature map就不是 04/17 18:57
48F:→ goldflower: 13x13囉 他每次採取不同scale時都會對應不同size 04/17 18:57
49F:→ goldflower: 從320 - 608分別對應10 - 19 在論文裡有這塊 04/17 18:58
50F:推 goldflower: 還是我搞錯你要問的意思XD 04/17 19:01
51F:推 goldflower: 喔喔我看到你回文了 請忽略我上述 04/17 19:08
52F:推 goldflower: 他的loss的確是照grid size去調整的 04/17 19:31
53F:→ goldflower: 所以我是認為他前面的darknet19在multi-scale 04/17 19:32
54F:→ goldflower: training那邊有點像multi-task learning中的shared 04/17 19:32
55F:→ goldflower: layer 但是後面分別對應不同的loss計算方式 04/17 19:32
謝謝g大,我想知道的就是這個,我直接去github看別人的程式碼,input size 320 ~ 608(32的倍數) 對應到算loss 的 grid size 也會跟著改變 10 ~ 19 這樣 真的很感謝上面各位大大為小弟解惑,感謝你們! ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:11:17 ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:15:17
56F:→ goldflower: 讚讚 想問你看哪個github有所有步驟都實作出來的啊XD 04/18 16:02
57F:→ NMOSFET: https://github.com/leetenki/YOLOv2 04/23 20:07
58F:→ NMOSFET: g大抱歉,現在才看到妳的留言 04/23 20:07
59F:→ goldflower: 這好像蠻精美的XD 感謝分享 04/24 13:15







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP