[转录] [闲聊] 菜鸟上Kaggle: 房价预测

时间Sat Mar 10 08:48:22 2018

作者: pipidog (如果狗狗飞上天) 看板: Python 标题: Re: [闲聊] 菜鸟上Kaggle: 房价预测时间: Thu Mar 8 05:42:17 2018 再补充一下昨天那篇文章的第一点,关於特徵选取的一些心得: 如果feature很多,那是如何减少是个大学问. 不然维度诅咒一下来,模型就gg了. 这种如何建构好的特徵的问题,被统称叫"feature engineering". 各种神技可能几天几夜都说不完. 坦白说我知道的也不多,只能分享一些"我认为"(所以可能错) 大致上的做法.常用的特徵选取法有三大类: filter, wrapper, embedding. 1). filter: 这是最简单的也最基本的特徵选取方法,尤其在数据样本数很大的时候,这是最代价最低的做法. 基本上就是统计一下哪些feature跟target的correlation高. 然後你人为设个阀值把correlation低的feature通通丢掉. 例如一个极端的情况,如果有一个数据,不管target data是啥,某个feature几乎都是1, 只有少数,例如2%是0,很明显的这个feature根本和target没太大关联性,这基本上就可以删去. 看这篇: https://tinyurl.com/ycoqh28u 2). wrapper: wrapper简单的就是你用一个简单的模型去测试,用那些feature来训练出来的模型准确率最高,差的feature就丢掉. 这作法满合理的,算是透过实证来找出好的特徵.但这有两个大问题. 1.你等於在训练很多模型,如果资料量很大满耗时间的. 2.你用A模型来估计特徵的重要性,并不表示你把选出的特徵用在B模型时表现就会比较好.所以如果要用这种方法,你要考虑的问题比较多. 用来选特徵的模型跟日後训练的模型要尽可能在原理上接近.但如果选得好,那表现应该会比filter好得多. 看这篇: https://tinyurl.com/ycgbwv5c 3). embedding: embedding算是第一种跟第二种方法的一种平衡,它既不是透过第一种,单纯的从统计给结果,也不是如第二种挑一个专一性高的模型直接做测试. 它主要是透过一些通用性的模型来自动挑出特徵权重.最常用的一种就是Lasso了. Lasso,基本上就是在线性回归里面加入L1正规化,尽可能的强迫大多数的线性回归系数是0,或接近0,所以你可以透过查看每个特徵在线性回归下被赋予的权重是多少,以此为依据来挑选重要的特徵. 这方法的好处是,它是基於一个实测的模型给答案,缺点是,它也就只是个简单的模型. 另外tree也是一个常用的手段,它也可以帮你筛出那些特徵比较重要. 用tree来筛特徵最大的好处是,tree对特徵的取值范围不敏感,所以你不用考虑把特徵归一化的问题,甚至也可以对catagorical的特徵来做.对特徵差异性大的问题,这也是一个好方法. 在sklearn里面给出了一个用Lasso挑特徵的范例: https://tinyurl.com/y74er3r5 * 洋洋洒洒提了一些方法,也只是一些肤浅的概述,如何建构好的特徵是一门大学问, 但功力有限,也就只能说到这了. 其他还有很多方法,例如用PCA降维等等,因为用这种方式做完的特徵意义已经不明,那就是另一个故事了.我想也偏离了这篇的主题,就不提了. 如果还有好的方法也欢迎分享,相互交流. -- ★人生中最温暖的夏天是在纽约的冬天★ --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 73.66.168.95 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1520458944.A.357.html ※ 编辑: pipidog (73.66.168.95), 03/08/2018 05:50:53

1^F：推 b24333666: 推 03/08 06:39

2^F：推 aaaba: 你不要那麽专业好不好 03/08 13:41

3^F：推 bestchiao: 感谢分享不晓得有没有分享在github的习惯 03/08 16:06

4^F：推 stoltzman: 推!对初学者给了一些方向!! 03/09 15:52

5^F：推 smartree: 大神有 GIThub 可以 follow 吗？ 03/09 16:46

6^F：推 wallrose: 推 03/10 03:55

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.8.6.231 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/deeplearning/M.1520642904.A.947.html

7^F：推 Rprogramming: 请教一下 feature一般是如何得到的? 03/12 01:39

8^F：→ Rprogramming: 如果是linear regression的话 03/12 01:39

9^F：推 poiuy8568: 推 PCA基本是用变异数的想法去剔除掉差异不大的特徵去 03/14 01:15

10^F：→ poiuy8568: 做降维处理此外也会用梯度递减的方式去测试杂讯的剔 03/14 01:15

11^F：→ poiuy8568: 除效果 03/14 01:15

12^F：推 Gaji: 推 03/16 06:26

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[转录] [闲聊] 菜鸟上Kaggle: 房价预测

热门看板

赞助商连结