DataScience 板


LINE

1.使用時機 最近在用PointNet去預測植物的特性,老闆不斷要我做cross validation,因為我們的資 料數量很少,總共只有450筆,她認為cross validation可以避免因為test set選得不好 導致模型有偏誤的結果,但我讀的文章都是在有多個model時,才會用cross validation 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我 誤會了什麼。 2.bias, variance 在讀cross validation variants的比較時,我觀察到作者們都會用bias跟variance來評 估這個cross validation variant的效果。Ron Kohavi 1995年的文章裡就是以bias及var iance評估到底哪一個variant可以最好地評估一個model。以leave one out cross valid ation為例,他就說是unbiased但有非常大的variance所以這個variant不甚理想。但是這 些文章都是以classification為基礎來推導,我想請教若是對regression model用cross validation時,要如何評估bias跟variance呢? 總結 我不清楚只有一個model時做cross validation的意義何在,以及若要做的話,我該如何 選擇哪一種cross validation呢?考慮到我們的樣本數少,老闆認為因為樣本數少,不適 合10 fold cross validation,論文大部分以classification來討論,想請教版友該以什 麼方法來評估regression的模型。 感謝各位的幫忙Q___Q --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 66.253.158.23 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1644783084.A.35F.html
1F:→ wheado: 實際應用上老闆是不在乎var, 02/14 11:01
2F:→ wheado: 準確度數據好看才是真理....02/14 11:01
她現在不在乎,但下個月可能會再回來問我G___G
3F:→ truehero: 老闆不要10 FOLD ,你就用2 FOLD 3 FOLD 5 FOLD02/14 13:21
4F:→ truehero: 找出一個切法能讓 OOF平均最高 ,02/14 13:23
5F:推 ddavid: 不 10-Fold 就給他一個 Leave-one-out 啊 02/14 13:44
她一開始叫我做10fold,現在說10太多,我怕沒個依據她到時候3-10每個都試一次,我真 的會畢不了業
6F:→ cs410567cs: 一般都是做5 fold 不過只有450筆 不適合做ML DL吧 02/15 13:27
農業資料蒐集不容易,蠻多人都是數據很少還是硬做的,說實話我也覺得太少,但我也是 被老闆抓來硬做,沒得商量的。
7F:→ cs410567cs: 另外 超過2-3年的文章都是上古文章02/15 13:28
沒看到近幾年有類似的討論,只好考古了 ※ 編輯: NDEJG (66.253.158.26 美國), 02/15/2022 23:44:01
8F:推 f821027: 多個模型的話就是比較cross_val_score去比較平均的mse或02/16 12:19
9F:→ f821027: mae等等哪個低02/16 12:19
10F:→ f821027: 單模的話可以把每個folde的mse或mae都算出來 畫成折線圖02/16 12:19
11F:→ f821027: 搭配std判斷資料的robustness02/16 12:19
單模的話是取k組當testing set嗎?
12F:→ f821027: 可以參考下面各種 cv 方法 https://scikit-learn.org/sta02/16 12:24
13F:→ f821027: ble/modules/cross_validation.html02/16 12:24
感謝分享,我有些文章就是從這個頁面找的xD ※ 編輯: NDEJG (128.210.106.49 美國), 02/17/2022 06:58:28
14F:推 f821027: 有點不太確定你說的testing set的意思,我的認知是all d 02/17 15:00
15F:→ f821027: ata 先分成training set 和 testing set,針對training 02/17 15:00
16F:→ f821027: set去做k-fold cross validation 去確保build出來的模型 02/17 15:00
17F:→ f821027: 參數會是最好的,當然fold越多的話 模型穩健度會越高, 02/17 15:00
18F:→ f821027: 那這k個fold都會有你放進cross_val_score裡面scoring參 02/17 15:00
19F:→ f821027: 數的指標,看你幾個fold,那這k個fold可以驗證你放的模 02/17 15:00
20F:→ f821027: 型的穩健性,可以透過std判斷 02/17 15:00
21F:→ NDEJG: 了解,感謝大大分享Q_Q 02/18 02:49
22F:推 hsuchengmath: 第二個問題,regression要怎麼計算bias =target lab 03/15 08:01
23F:→ hsuchengmath: el-mean(模型預測出來的) 計算variance=var(模型預 03/15 08:01
24F:→ hsuchengmath: 測出來的) 03/15 08:01
25F:推 hsuchengmath: 這些都是基本統計的內容, 回去複習哈哈哈 03/15 08:03







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP