作者ruthertw (督人无数就是我)
看板DataScience
标题[问题] 除了交叉验证,还有哪些方法可证明over-fi
时间Sat Apr 23 23:32:30 2022
- 问题: 当你想要问问题时,请使用这个类别。
除了交叉验证,
还有哪些方法可以良好且严谨的证明over-fitting的存在?
作业系统:(ex:mac,win10,win8,win7,linux,etc...)
Ubuntu
问题类别:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
验证资料方法,Cross Validation
使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...)
python
问题内容:
指导教授对於验证资料,Cross Validation来显示over-fitting的存在很不满意,
要我用其他验证方法,
但是其他evaluation metrics方法并不是很直觉地拿能来验证over-fitting的存在.
调整过datasets,和换过模型,调整参数数量,batch sizes,learning rate,...
等等论文里常用的方法.
跑了所有的实验结果(包含evaluation metrics方法)给教授看後,
他依然不满意,要我自己提出严谨能证明over-fitting的存在.
我请他给方向或是建议,
他说你自己的研究自己做.
...
想请问还有哪些方法可以良好严谨的证明over-fitting的存在?
和调配模型的方法?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.217.247.82 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1650727952.A.476.html
※ 编辑: ruthertw (180.217.247.82 台湾), 04/23/2022 23:40:17
1F:→ wtchen: 看不懂你的问题,overfit不就是test error止跌回升 04/24 02:22
2F:→ wtchen: 跟你调的那些参数有啥关系 04/24 02:23
3F:推 yiche: 一楼应该是误会了 交叉验证最简单像是k-fold做出k个组验证 04/24 11:27
4F:→ yiche: 集取平均,在挑参数(model selection)的同时,本身就有避免 04/24 11:27
5F:→ yiche: over fitting 的效果了,就是为了模型可以泛化,才考量k组 04/24 11:27
6F:→ yiche: 的 04/24 11:27
7F:→ chang1248w: linear regression会检查residual 和理论值一不一样 04/24 11:30
8F:→ chang1248w: 要推到神经网路上有些距离 04/24 11:31
9F:推 yiche: nn的参数随手都成千数百万,高维度的loss是超平面,没办法 04/24 11:56
10F:→ yiche: 绘出说明目前的情况是overfitting,通常都是画出底下的图 04/24 11:56
11F:→ yiche: 来看而已 04/24 11:56
13F:→ Sfly: 盲测啊 04/24 16:09
14F:推 wtchen: 一般就是看loss跟acc趋势来证明overfit 04/24 21:04
15F:→ wtchen: k-fold帮助泛化的前提,一是资料分布够均匀,不会有其中 04/24 21:09
16F:→ wtchen: 几折表现特别奇怪,二是能达到像随机森林那样的效果 04/24 21:10
17F:→ wtchen: (不然效果可能近似纯装袋法) 04/24 21:11
18F:→ wtchen: 这可能要稍微用dropout 04/24 21:12
19F:→ wre880223: Learning curve呢? 04/25 10:36