作者qddcynthia (溫暖的大手)
看板DataScience
標題[問題] 請問數據標準化跟偏度(skew)處理
時間Thu Nov 10 13:23:27 2022
最近在練習Kaggle的房價預測
看了一些前輩的分享, 有些都是modeling之前數據用StandardScaler作標準化
也有的是在數據前處理的時候就對目標函數做log轉換, 其他特徵值做boxcox轉換
請問如果目的是要讓數據正規化分布的話,為什麼不直接做標準化就好呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.139.171.21 (日本)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1668057809.A.6BC.html
1F:→ chang1248w: 什麼是偏化 11/10 13:59
→ chang1248w: 標準化不會改變偏度啊
我理解正確的話, 都是讓要讓數據正規分布... 11/10 14:12
※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:02
※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:50
※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:32:07
2F:推 lycantrope: 標準化不會讓數據正規分布啊. 11/10 15:04
3F:→ chang1248w: 資料前處理的目的有很多啊,有的模型會被資料的scale 11/10 15:48
4F:→ chang1248w: 影響的,像是knn 神經網路 還有一些gradient based的 11/10 15:48
5F:→ chang1248w: 方法 11/10 15:48
6F:→ chang1248w: 另外有的目的是為了在視覺上呈現資訊 11/10 15:49
7F:→ polie4523: 兩個效果不一樣吧。標準化改變尺度不改變分佈,你把處 11/11 02:23
8F:→ polie4523: 理前後的histogram畫出來就知道不會變 11/11 02:23
9F:→ polie4523: 你提到的boxcox才會改變特徵分佈,如果原本特徵不符合 11/11 02:28
10F:→ polie4523: 常態分佈,效果就是讓處理後的資料比較像,因爲大部分m 11/11 02:28
11F:→ polie4523: odel都假設處理的特徵是常態分佈才這樣做,一樣可以把 11/11 02:28
12F:→ polie4523: 處理前後的histogram畫出來比較 11/11 02:28
13F:→ qddcynthia: 那請問一般是兩種方法都一起用嗎? 11/11 07:35
14F:→ chang1248w: 這也不一定 11/11 15:39
15F:推 f821027: X做標準化的部分同意4樓說的 有的模型對於outliers很敏 11/11 20:28
16F:→ f821027: 感 就適合先做標準化 你說的boxcox是針對y轉換 因為y資 11/11 20:28
17F:→ f821027: 料分佈標準差太大 把他做一個轉換後 再和X去build model 11/11 20:28
18F:→ f821027: 這個model predict出的Y再用boxcox反函數轉回原本y的樣 11/11 20:28
19F:→ f821027: 本空間 11/11 20:28