作者VIATOR (秀才遇到兵)
看板DataScience
标题Re: [问题] cross validation请益
时间Thu Feb 17 01:06:04 2022
※ 引述《NDEJG (NDE)》之铭言:
: 1.使用时机
: 最近在用PointNet去预测植物的特性,老板不断要我做cross validation,因为我们的资
: 料数量很少,总共只有450笔,她认为cross validation可以避免因为test set选得不好
: 导致模型有偏误的结果,但我读的文章都是在有多个model时,才会用cross validation
: 来决定哪个模型最适合这个dataset。不知道有没有版友可以解惑是否是老板弄错还是我
: 误会了什麽。
以下是个人看法,请自行斟酌
情况一:
cross-validation(CV)可以用来做模型选择,或者是所谓的hyperparameter tuning,
模型选择之後,再用test set评估效果。
情况二:
CV也可以在资料少的情况下,用来评估效果,在这样的情况下,
CV类似用於情况一的test set。
要这样做,并需要注意,你不可以用CV做hyperpatameter tuning
,然後再用CV评估效果,否则会有overfitting的问题。
如果你没有hyperparameter tuning的需求,可以用CV来评估效果,这是比较简单的问题。
如果你要hyperparameter tuning,又要评做效果,你必需要用
"nested cross-validation"
: 2.bias, variance
: 在读cross validation variants的比较时,我观察到作者们都会用bias跟variance来评
: 估这个cross validation variant的效果。Ron Kohavi 1995年的文章里就是以bias及var
: iance评估到底哪一个variant可以最好地评估一个model。以leave one out cross valid
: ation为例,他就说是unbiased但有非常大的variance所以这个variant不甚理想。但是这
: 些文章都是以classification为基础来推导,我想请教若是对regression model用cross
: validation时,要如何评估bias跟variance呢?
: 总结
: 我不清楚只有一个model时做cross validation的意义何在,以及若要做的话,我该如何
: 选择哪一种cross validation呢?考虑到我们的样本数少,老板认为因为样本数少,不适
: 合10 fold cross validation,论文大部分以classification来讨论,想请教版友该以什
: 麽方法来评估regression的模型。
: 感谢各位的帮忙Q___Q
样本数少的时候可以考虑用5-fold CV,我印象中CV建议至少要用5 folds,
不过这应该也只是经验值,没有什麽真正的学理去支持这个5数字怎麽来的。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.26.161 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1645031167.A.6F5.html
1F:推 NDEJG: 我没读到nested cross validation,感谢大大分享。我读的 02/17 06:47
2F:→ NDEJG: 文献也是几乎都推荐5fold以上。 02/17 06:47
3F:→ NDEJG: 另外请问一下,若不需要调hyperparameter,我是随便抓一组v 02/17 06:50
4F:→ NDEJG: alidation set即可吗? 02/17 06:50
5F:→ VIATOR: 不需要调hyperparameter的话,可以做一般CV就好了 02/17 08:45
6F:→ NDEJG: 好的,感谢大大分享Q__Q 02/18 02:49