作者VIATOR (譬如朝露)
看板DataScience
标题Re: [问题] cross validation请益
时间Mon Mar 21 11:13:38 2022
※ 引述《VIATOR (秀才遇到兵)》之铭言:
: 标题: Re: [问题] cross validation请益
: 时间: Thu Feb 17 01:06:04 2022
:
: ※ 引述《NDEJG (NDE)》之铭言:
: : 1.使用时机
: : 最近在用PointNet去预测植物的特性,老板不断要我做cross validation,因为我们的资
: : 料数量很少,总共只有450笔,她认为cross validation可以避免因为test set选得不好
: : 导致模型有偏误的结果,但我读的文章都是在有多个model时,才会用cross validation
: : 来决定哪个模型最适合这个dataset。不知道有没有版友可以解惑是否是老板弄错还是我
: : 误会了什麽。
:
: 以下是个人看法,请自行斟酌
:
: 情况一:
: cross-validation(CV)可以用来做模型选择,或者是所谓的hyperparameter tuning,
: 模型选择之後,再用test set评估效果。
:
: 情况二:
: CV也可以在资料少的情况下,用来评估效果,在这样的情况下,
: CV类似用於情况一的test set。
: 要这样做,并需要注意,你不可以用CV做hyperpatameter tuning
: ,然後再用CV评估效果,否则会有overfitting的问题。
: 如果你没有hyperparameter tuning的需求,可以用CV来评估效果,这是比较简单的问题。
: 如果你要hyperparameter tuning,又要评做效果,你必需要用
: "nested cross-validation"
:
:
: --
:
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.26.161 (台湾)
: ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1645031167.A.6F5.html
: 推 NDEJG: 我没读到nested cross validation,感谢大大分享。我读的 02/17 06:47
: → NDEJG: 文献也是几乎都推荐5fold以上。 02/17 06:47
: → NDEJG: 另外请问一下,若不需要调hyperparameter,我是随便抓一组v 02/17 06:50
: → NDEJG: alidation set即可吗? 02/17 06:50
: → VIATOR: 不需要调hyperparameter的话,可以做一般CV就好了 02/17 08:45
: → NDEJG: 好的,感谢大大分享Q__Q 02/18 02:49
最近刚好在复习CV,发现用CV出来的结果和实际上的test performance是有可能不同的,
所以你如果要用CV来代表你实验的结果,可能需要更仔细思考是不是正确。
在经典书藉"An Introduction to Statistical Learning" 里
https://hastie.su.domains/ISLR2/ISLRv2_website.pdf
图5.6在讨论true test error和CV-estimated test error,
结果显示,用CV做的误差可能会和实际上的误差不同。
所以最保险的方法还是用一个independent test set。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.31.126 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1647832421.A.3B5.html
※ 编辑: VIATOR (140.116.31.126 台湾), 03/21/2022 11:15:07
1F:推 NDEJG: 但是independent test set的distribution如果跟training 03/26 00:50
2F:→ NDEJG: 不太一致,是不是也会有偏差呢? 03/26 00:50
3F:→ VIATOR: 还是有可能会有偏差,但那已经是最客观的方法了 03/26 18:58