DataScience 板


LINE

作者: pipidog (如果狗狗飛上天) 看板: Python 標題: Re: [閒聊] 菜鳥上Kaggle: 房價預測 時間: Thu Mar 8 05:42:17 2018 再補充一下昨天那篇文章的第一點,關於特徵選取的一些心得: 如果feature很多,那是如何減少是個大學問. 不然維度詛咒一下來,模型就gg了. 這種如何建構好的特徵的問題,被統稱叫"feature engineering". 各種神技可能 幾天幾夜都說不完. 坦白說我知道的也不多,只能分享一些"我認為"(所以可能錯) 大致上的做法.常用的特徵選取法有三大類: filter, wrapper, embedding. 1). filter: 這是最簡單的也最基本的特徵選取方法,尤其在數據樣本數很大的時候,這是最代價 最低的做法. 基本上就是統計一下哪些feature跟target的correlation高. 然後你人為設個閥值把correlation低的feature通通丟掉. 例如一個極端的情況,如果有一個數據,不管target data是啥,某個feature幾乎都是1, 只有少數,例如2%是0,很明顯的這個feature根本和target沒太大關聯性,這基本上就 可以刪去. 看這篇: https://tinyurl.com/ycoqh28u 2). wrapper: wrapper簡單的就是你用一個簡單的模型去測試,用那些feature來訓練出來的模型準 確率最高,差的feature就丟掉. 這作法滿合理的,算是透過實證來找出好的特徵.但這 有兩個大問題. 1.你等於在訓練很多模型,如果資料量很大滿耗時間的. 2.你用A模型 來估計特徵的重要性,並不表示你把選出的特徵用在B模型時表現就會比較好.所以如果 要用這種方法,你要考慮的問題比較多. 用來選特徵的模型跟日後訓練的模型要盡可能 在原理上接近.但如果選得好,那表現應該會比filter好得多. 看這篇: https://tinyurl.com/ycgbwv5c 3). embedding: embedding算是第一種跟第二種方法的一種平衡,它既不是透過第一種,單純的從統計 給結果,也不是如第二種挑一個專一性高的模型直接做測試. 它主要是透過一些通用 性的模型來自動挑出特徵權重.最常用的一種就是Lasso了. Lasso,基本上就是在線 性回歸裡面加入L1正規化,盡可能的強迫大多數的線性回歸係數是0,或接近0,所以你 可以透過查看每個特徵在線性回歸下被賦予的權重是多少,以此為依據來挑選重要的 特徵. 這方法的好處是,它是基於一個實測的模型給答案,缺點是,它也就只是個簡單 的模型. 另外tree也是一個常用的手段,它也可以幫你篩出那些特徵比較重要. 用tree來篩特徵最大的好處是,tree對特徵的取值範圍不敏感,所以你不用考慮把特 徵歸一化的問題,甚至也可以對catagorical的特徵來做.對特徵差異性大的問題,這 也是一個好方法. 在sklearn裡面給出了一個用Lasso挑特徵的範例: https://tinyurl.com/y74er3r5 * 洋洋灑灑提了一些方法,也只是一些膚淺的概述,如何建構好的特徵是一門大學問, 但功力有限,也就只能說到這了. 其他還有很多方法,例如用PCA降維等等,因為用 這種方式做完的特徵意義已經不明,那就是另一個故事了.我想也偏離了這篇的主 題,就不提了. 如果還有好的方法也歡迎分享,相互交流. -- ★人生中最溫暖的夏天是在紐約的冬天 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.66.168.95
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1520458944.A.357.html ※ 編輯: pipidog (73.66.168.95), 03/08/2018 05:50:53
1F:推 b24333666: 推 03/08 06:39
2F:推 aaaba: 你不要那麼專業好不好 03/08 13:41
3F:推 bestchiao: 感謝分享 不曉得有沒有分享在github的習慣 03/08 16:06
4F:推 stoltzman: 推!對初學者給了一些方向!! 03/09 15:52
5F:推 smartree: 大神有 GIThub 可以 follow 嗎? 03/09 16:46
6F:推 wallrose: 推 03/10 03:55
--



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.8.6.231
※ 文章網址: https://webptt.com/m.aspx?n=bbs/deeplearning/M.1520642904.A.947.html
7F:推 Rprogramming: 請教一下 feature一般是如何得到的? 03/12 01:39
8F:→ Rprogramming: 如果是linear regression的話 03/12 01:39
9F:推 poiuy8568: 推 PCA基本是用變異數的想法去剔除掉差異不大的特徵去 03/14 01:15
10F:→ poiuy8568: 做降維處理 此外也會用梯度遞減的方式去測試雜訊的剔 03/14 01:15
11F:→ poiuy8568: 除效果 03/14 01:15
12F:推 Gaji: 推 03/16 06:26







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP