作者NDEJG (NDE)
看板DataScience
标题[问题] cross validation请益
时间Mon Feb 14 04:11:22 2022
1.使用时机
最近在用PointNet去预测植物的特性,老板不断要我做cross validation,因为我们的资
料数量很少,总共只有450笔,她认为cross validation可以避免因为test set选得不好
导致模型有偏误的结果,但我读的文章都是在有多个model时,才会用cross validation
来决定哪个模型最适合这个dataset。不知道有没有版友可以解惑是否是老板弄错还是我
误会了什麽。
2.bias, variance
在读cross validation variants的比较时,我观察到作者们都会用bias跟variance来评
估这个cross validation variant的效果。Ron Kohavi 1995年的文章里就是以bias及var
iance评估到底哪一个variant可以最好地评估一个model。以leave one out cross valid
ation为例,他就说是unbiased但有非常大的variance所以这个variant不甚理想。但是这
些文章都是以classification为基础来推导,我想请教若是对regression model用cross
validation时,要如何评估bias跟variance呢?
总结
我不清楚只有一个model时做cross validation的意义何在,以及若要做的话,我该如何
选择哪一种cross validation呢?考虑到我们的样本数少,老板认为因为样本数少,不适
合10 fold cross validation,论文大部分以classification来讨论,想请教版友该以什
麽方法来评估regression的模型。
感谢各位的帮忙Q___Q
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 66.253.158.23 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1644783084.A.35F.html
1F:→ wheado: 实际应用上老板是不在乎var, 02/14 11:01
2F:→ wheado: 准确度数据好看才是真理....02/14 11:01
她现在不在乎,但下个月可能会再回来问我G___G
3F:→ truehero: 老板不要10 FOLD ,你就用2 FOLD 3 FOLD 5 FOLD02/14 13:21
4F:→ truehero: 找出一个切法能让 OOF平均最高 ,02/14 13:23
5F:推 ddavid: 不 10-Fold 就给他一个 Leave-one-out 啊 02/14 13:44
她一开始叫我做10fold,现在说10太多,我怕没个依据她到时候3-10每个都试一次,我真
的会毕不了业
6F:→ cs410567cs: 一般都是做5 fold 不过只有450笔 不适合做ML DL吧 02/15 13:27
农业资料蒐集不容易,蛮多人都是数据很少还是硬做的,说实话我也觉得太少,但我也是
被老板抓来硬做,没得商量的。
7F:→ cs410567cs: 另外 超过2-3年的文章都是上古文章02/15 13:28
没看到近几年有类似的讨论,只好考古了
※ 编辑: NDEJG (66.253.158.26 美国), 02/15/2022 23:44:01
8F:推 f821027: 多个模型的话就是比较cross_val_score去比较平均的mse或02/16 12:19
9F:→ f821027: mae等等哪个低02/16 12:19
10F:→ f821027: 单模的话可以把每个folde的mse或mae都算出来 画成折线图02/16 12:19
11F:→ f821027: 搭配std判断资料的robustness02/16 12:19
单模的话是取k组当testing set吗?
13F:→ f821027: ble/modules/cross_validation.html02/16 12:24
感谢分享,我有些文章就是从这个页面找的xD
※ 编辑: NDEJG (128.210.106.49 美国), 02/17/2022 06:58:28
14F:推 f821027: 有点不太确定你说的testing set的意思,我的认知是all d 02/17 15:00
15F:→ f821027: ata 先分成training set 和 testing set,针对training 02/17 15:00
16F:→ f821027: set去做k-fold cross validation 去确保build出来的模型 02/17 15:00
17F:→ f821027: 参数会是最好的,当然fold越多的话 模型稳健度会越高, 02/17 15:00
18F:→ f821027: 那这k个fold都会有你放进cross_val_score里面scoring参 02/17 15:00
19F:→ f821027: 数的指标,看你几个fold,那这k个fold可以验证你放的模 02/17 15:00
20F:→ f821027: 型的稳健性,可以透过std判断 02/17 15:00
21F:→ NDEJG: 了解,感谢大大分享Q_Q 02/18 02:49
22F:推 hsuchengmath: 第二个问题,regression要怎麽计算bias =target lab 03/15 08:01
23F:→ hsuchengmath: el-mean(模型预测出来的) 计算variance=var(模型预 03/15 08:01
24F:→ hsuchengmath: 测出来的) 03/15 08:01
25F:推 hsuchengmath: 这些都是基本统计的内容, 回去复习哈哈哈 03/15 08:03