DataScience 板


LINE

※ 引述《bokxko1023 (bokxko1023)》之銘言: : 在網路上看了不少文章,但還是無法理解為何L1會具有稀疏的特性?這兩者的具體差別到 : 底是什麼呢,能用gradient descent 在微分時的差別來解釋嗎? : 另外想請問大家是怎麼選正規化的權重alpha的?雖說知道是用trial and error,但數字 : 範圍這麼廣,有沒有限縮範圍的方法呢? : 感謝大家 推文裡提到一些觀點都不太嚴謹 (可能是我想像力太差) 1. 每次梯度下降的大小是L1>L2: 格局太小不說(離了GD推論就無效), 迭代的過程只是想當然耳, 每一步用的梯度大小應該只影響收斂速度而非收斂到的值, 難道是原來就有稀疏解, 只是用L1比較快? 那麼不用L1但增加learning rate或多迭代幾次, 為什麼不會解到零? 2. 等高線優先撞到角角、相當於lagrange的某個式子...: 更複雜的想當然耳, 為什麼極值一定在邊邊角角? 又為什麼邊上的每個點機率是一樣的? 碰到線段上的某定點的機率是0, 應該是「很難」碰到頂點吧? 甚至, 如果降到1維, 整個推論就變得很荒謬: 因為 x 的範圍都在 [-C, +C], 線段一樣, 頂點一樣, 範圍裡等高線也一樣, 此時 L1, L2, L3, ... 沒有差別, 而且一定收斂到 -C 或 +C (保證不稀疏) 這解釋跟本禁不起推敲 其實可以直接求"存在稀疏解"的條件 假設原損失函數 f(x) 在 x=0 可微, R(x) 是 regularization term, a 是 regularization 的權重 則 f(x) + a R(x) 在 x=0 處有最小值(稀疏解) 的定義是: 存在一點 x0 > 0, 使得 for all h in [-x0, x0] 恒有 f(h) + a R(h) >= f(0) + a R(0), 即 f(h) - f(0) >= -a [ R(h) - R(0) ] 把式子兩邊同時除以 h,並分別取 0 的左右極限 因為是不等式, 所以 h 的正負需分開討論 <=> lim{h->0+} [f(h)-f(0)]/h >= lim{h->0+} -a [R(h)-R(0)]/h 且 lim{h->0-} [f(h)-f(0)]/h <= lim{h->0-} -a [R(h)-R(0)]/h 由於 f 在 0 可微, 所以上兩式的左項相等, 即 f'(0) 整理得 <=> -a R'(0+) <= f'(0) <= -a R'(0-) 其中 R'(0+) 為 R 在 0 的右導數, R'(0-) 為 R 在 0 的左導數. 所以, L1: R(x) = |x|, R'(0+)=1, R'(0-)=-1, 有稀疏解的充要條件是 -a <= f'(0) <= a L2: R(x) = x^2, R'(0+)=0, R'(0-)=0 , 有稀疏解的充要條件是 0 <= f'(0) <= 0 換句話說: 用 L1 時, 只要 f 在原點的梯度絕對值 <= 正則的權重, x=0 就會是區域極小 甚至 f 沒有極值都可以 (e.g., x^3 + |x|) 可以想成 "無論f是什麼樣子, 只要在0附近足夠平緩, 加上L1就會有稀疏解" 當然能不能解到是另一回事 但用 L2 時, 只有原來 f'(0) = 0 才會有稀疏解, 也就是說加上 L2, 對稀疏解沒有幫助 也可以機率的觀點來看 regularization相當於強迫參數服從於特定的prior distribution 而L1對應的分佈 相較L2集中在零點 這有機會再說了 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.119.85.87
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1523488715.A.DAE.html ※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 07:20:54 ※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 09:12:14 ※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 09:13:34
1F:推 goldflower: 推 04/12 12:33
2F:推 sxskr1001: 推 04/12 12:55
※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 13:51:29 ※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 14:06:14
3F:推 lucien0410: 推 數據科學家的超能力不是數學運算 是數學想像力! 04/12 15:42
4F:推 AmibaGelos: 大推! 從input來看扣掉需要非0 filter的features 其 04/13 12:52
5F:→ AmibaGelos: 它dof是在學noise 用L2的話noise只是rescale 用L1的 04/13 12:52
6F:→ AmibaGelos: 話就是把scattering<regularization strength的砍掉 04/13 12:52
7F:推 goldflower: 話說我一直覺得regularization用機率的角度來看他的 04/13 15:26
8F:→ goldflower: 假設會不會太強啊 一直有這種疑問XD 04/13 15:27
9F:推 a78998042a: 推推 05/02 15:09







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP