作者boggy ()
看板DataScience
标题[问题] Imbalanced dataset使用SOMTE求教
时间Fri May 6 22:41:18 2022
大家好
我正在做一个关於imbalanced data的分析
正样本大概1%,feature有95个,data共6500笔左右
简单的特徵处理後
对X_train
我先用sklearn的SMOTENC来合成正样本(因为feature含nominal variable故用SMOTENC)
之後先简单用logistic regression来fit X_test
结果居然发现使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都变差了......
这根本颠覆我的认知了啊@@"
可是查了程式码和网路上爬了一堆文也还不知道是为什麽?
(後来再try其他模型也都是一样结果)
想请问各位这种结果是有可能的吗?
已经想了一整天了QQ
感谢大家看完~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.234.122.138 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1651848080.A.D27.html
1F:→ chang1248w: 你有检查你对象的normality 和countinuity? 05/07 01:38
2F:推 cowbadma5566: 看看混淆矩阵变差的是哪里 05/07 04:21
3F:推 KuChanTung: 试试设定class weight 然後使用bagging 来跑 logistic 05/07 06:39
4F:→ KuChanTung: regression 05/07 06:39
5F:推 carolian: 你列出的metrics变差的幅度大吗?smote後看classificat 05/07 06:56
6F:→ carolian: ion report 里面positive class的recall应该会比原本高 05/07 06:56
7F:→ carolian: ,其他metrics降低其实蛮正常 05/07 06:56
8F:推 KindWei: 楼上正解,oversampling 的意义在於强化模型辨认少样本 05/07 13:09
9F:→ KindWei: 的能力,还有 oversampling 本质上还是增加了资料的 nois 05/07 13:09
10F:→ KindWei: e ,如果你 oversample 过多样本,反而让 model 学到更多 05/07 13:09
11F:→ KindWei: 脏东西,反而降低原本辨认多样本的能力 05/07 13:09
12F:→ chang1248w: 长知识 05/07 13:48
13F:→ boggy: 感谢大家,真的长知识了 05/08 00:09
15F:→ boggy: 做完之後的确precision上升,RF没变曾该是模型本身就能分 05/08 00:10
16F:→ boggy: 不平衡数据,贝氏变差应该就像前面大大说的nosie增多 05/08 00:11
17F:推 VIATOR: 我过去的经验SMOTE也变差(不过变差幅度没统计显着差异) 05/10 00:02
18F:→ VIATOR: SMOTE最根本原理是根据knn,但knn不适合高维度的问题 05/10 00:04
19F:→ VIATOR: 所以我认为SMOTE对高维度的问题没太大的帮助 05/10 00:04