作者leoloveivy (cried)
看板DataScience
标题Re: [问题] Validation set 到底在做什麽?
时间Tue Mar 27 11:36:48 2018
我们把数据分割成三等分,每次取一份出来做validation,另外两份作trian来生成模型,这
样每一次我就会生成三个模型,给出三个performance,然後我拿三个performance来取平均
作为总的performance,以衡量我模型的好坏.
=======================
看到这个就是我长久一来一直卡住的地方
我们资料收集可以假设一堆资料分布差不多
可是当我们切成train val test
我会比较困惑 当n flod後
资料分堆後
distance差异明显会变高
分好的set 跟一开始的
差异在於data量少了
所以各个set distance反而变明显
那在deep learning中又可以把这种高维度的小差距分的很好
那这样inference的performance不就完全取决於我的training set上
我拿他去平均各个performance 这样真的是可以知道模型好坏吗?
假设我出来3个 0.9 0.9 0.2那这样的话
我是不是要回头把我的data preparing
再做好 会比去调model更好
或者再去把n调大再试试看avg performance
希望大家指点 不知道哪里观念错卡住
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.146.250.197
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1522121811.A.03B.html
1F:推 goldflower: 其实你好像讲完了? 如果你资料量够有做好shuffle03/27 12:12
2F:→ goldflower: 照理说在model正常下这麽大的差距很难发生03/27 12:13
举的例子是有点夸张
因为我不太确定就算我们去test
deploy应该还是会拿分数高的去吗?
所以说遇到这个要回去data preparing
还是把dataset fixed先调整model
哪个先优先做才会比较好
3F:→ goldflower: 资料量少的话你甚至可以开leave-one-out下去03/27 12:14
※ 编辑: leoloveivy (223.139.173.93), 03/27/2018 15:47:33
4F:推 goldflower: 一般来说应该都是先弄好前处理再去调整model03/27 16:20
5F:→ goldflower: 毕竟你资料不好你就不知道model表现怎麽样了03/27 16:21
ok thanks
※ 编辑: leoloveivy (118.171.201.140), 03/27/2018 20:39:09