作者zhichenyang1 (zhi)
看板Python
标题[问题] SVM分类器预测结果
时间Fri Jul 31 19:26:06 2020
想请问一个问题,盼各位高手解惑
我要把处理过後的资料,分成训练集跟预测集,丢到一个SVM分类器,训练集去让分类器
学习,训练後再把预测集丢到机器让他预测,结果是好的,但是如果把新进的资料丢到机
器分类结果超怪
假设我有300笔资料,然後把他随机分割成两个,一个是训练,一个是预测的,准确率很
好
把三百笔资料完全当训练的,新的有30笔,结果却很差
请问中间是出了什麽差错?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.231.127 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1596194768.A.AD0.html
1F:→ roccqqck: 这种事不是常常发生吗 07/31 19:37
2F:推 LP9527: 偷偷跟你说,我邻居的小孩写了300题理化,期中考30分 07/31 20:49
3F:→ rfvcxswed: 你datasets的size不一样的话, 没办法比 07/31 21:14
4F:→ rfvcxswed: 你得到的test error只是对於真正test error的估计, 07/31 21:15
5F:→ rfvcxswed: test data size越大, test error的估计会越准确. 07/31 21:15
6F:推 moodoa3583: overfitting?你acc.的变化是如何? 08/01 01:07
7F:推 TitanEric: stratified sampling吗 08/01 12:07
8F:→ TitanEric: 你有做上面的事吗 08/01 12:07
9F:推 germun: 表示你取的资料特徵不够好 08/01 14:02
10F:推 NikolaTesla: 应该因爲你新资料的特徵分布跟训练资料不同。一个是 08/01 17:23
11F:→ NikolaTesla: 扩大训练资料的分布范围。另一个是更好的特徵撷取。 08/01 17:23
12F:推 yuasa: 所以你要做cross validation、调参数,甚至试试其他algorit 08/01 20:59
13F:→ yuasa: hm阿。也有可能sample不够或没有代表性。高度fit training 08/01 21:02
14F:→ yuasa: dataset不代表就能精准预测training dataset以外的数据 08/01 21:02
15F:→ Starcraft2: overfitting 重新作train_test_split 也可以稍微看 08/03 10:40
16F:→ Starcraft2: 一下你的那300个和30个资料是不是长得不太一样 08/03 10:41
17F:→ Starcraft2: 另外看看能不能增加资料量到1000以上的量级 几百颇少 08/03 10:41
18F:→ aassdd926: 这就是要开始做EDA的节奏 08/04 00:04
19F:推 a78998042a: 简单的说,你训练集长的样子,跟测试集差很多,就是两 08/04 13:14
20F:→ a78998042a: 个资料集分布差异大。要嘛就是你样本没抽好,要嘛就是 08/04 13:14
21F:→ a78998042a: 资料是有时间性的。 08/04 13:14
22F:推 aidansky0989: 你的处理是怎样处理,下采样或过采样的话,你有99.9 08/04 15:18
23F:→ aidansky0989: 9%机率是过拟合 08/04 15:18
24F:推 erre: 掰陈都是一直调参数调出来,你参数调的不够多 09/02 11:10