DataScience 板


LINE

MADDPG的Action Space必須是連續的 不過小弟在翻文獻回顧的時候 有些Action Space是離散的 上網爬了一下文 似乎是利用Gumbel-Softmax去逼近 然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的) 不過我在想 實作上能否套用MADDPG的架構 (中心化訓練、去中心化執行) 但實際上在local的Agent是採A2C的方式去選擇Action呢? 麻煩各位前輩指教了 謝謝! --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1627645660.A.815.html
1F:推 sxy67230: Gumbel-softmax主要作用在取樣的時候,往往我們在取樣 07/31 10:38
2F:→ sxy67230: 的時候都是用random choice或是加入機率分佈因素再取arg 07/31 10:38
3F:→ sxy67230: max,但是如果你要在你整個網路訓練過程中加入就會導致 07/31 10:38
4F:→ sxy67230: 你的反向傳播失效,因為這兩個步驟是不可微的,這樣你就 07/31 10:38
5F:→ sxy67230: 沒辦法傳導你的梯度,所以用gumbel softmx再參數化去逼 07/31 10:38
6F:→ sxy67230: 近random choice的取樣效果同時讓整個過程可微。 07/31 10:38
7F:→ johnnyjana: 不知道樓上在講什麼 08/01 14:00
8F:→ johnnyjana: gumbel softmax就只是個trick 把原本的probablity 08/01 14:04
9F:→ johnnyjana: output 除上很小的"tau" 過“可微”的softmax之後機 08/01 14:04
10F:→ johnnyjana: 率分佈很像是discrete的 08/01 14:04
了解了,不過我有看到一篇文獻是將binary的action space過sigmoid 該篇文獻最後一層通過y=sigmoid(1000x),再output出來 一樣都是逼近成類似discrete的機率分布 想請問這樣的做法跟gumbel-softmax的差異在哪裡呢? 或者說 有一定要利用gumbel-softmax的理由不可嗎? ※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03
11F:推 johnnyjana: 這個深度學習的問題沒有正確答案 只能都試試看最後在 08/01 16:03
12F:→ johnnyjana: paper唬爛一個答案 唯一比較客觀分析還是看function 08/01 16:03
13F:→ johnnyjana: 斜率 比較兩者在你的dataset剃度的問題 08/01 16:03
14F:推 sxy67230: 確實有一些前提沒有補充到,想說讓原PO去查文獻大概就 08/03 08:42
15F:→ sxy67230: 明白了。首先,MADDPG整體架構還是一個DDPG,只是擴展08/03 08:42
16F:→ sxy67230: 成考量multi-agent的狀況。然後考量傳統DPG採用待優化po08/03 08:42
17F:→ sxy67230: licy跟取樣policy不同以解決exploration的問題,DDPG則08/03 08:43
18F:→ sxy67230: 是加入reparameterization(再參數化)的技巧克服他,這08/03 08:43
19F:→ sxy67230: 樣就不用再優化跟取樣用不同的policy。08/03 08:43
20F:推 sxy67230: 另外,gumbel sofmax輸入也是離散分佈,如果用輸出也說08/03 08:50
21F:→ sxy67230: 是離散會很容易誤導就是了。實際上應該是加入了gumbel d08/03 08:50
22F:→ sxy67230: istribution後除以一個tau再做softmax,這樣就可以用tau08/03 08:50
23F:→ sxy67230: 這個超參控制取樣的soft程度而已。08/03 08:50
24F:推 sxy67230: 這樣就可以讓整體保有隨機性,而gumbel分佈就是很好描述08/03 08:59
25F:→ sxy67230: 有極值的分佈,所以用再分類再取樣的效果就很合理,藉以08/03 08:59
26F:→ sxy67230: 達到我們想優化的是P(zlx)這樣的空間分佈,可以參考VAE08/03 08:59
27F:→ sxy67230: 的文獻實際上VAE也是這樣的技巧取樣,實際上可以去看一08/03 08:59
28F:→ sxy67230: 下VI的推導,VAE算是一個很有統計學習加上隨機程序的模08/03 08:59
29F:→ sxy67230: 型,整體推導流程也很優美,DDPG的作者也是借鑒這樣的08/03 08:59
30F:→ sxy67230: 思路來做policy過程的取樣的。08/03 08:59
31F:推 sxy67230: 然後再回到原PO sigmoid的問題上,我們如果假設輸入是服08/03 09:06
32F:→ sxy67230: 從一個Bernoulli distribution的,那sigmoid跟 softmax08/03 09:06
33F:→ sxy67230: 就是等價的,實際MADDPG的作者再實現上就是用這種技巧,08/03 09:06
34F:→ sxy67230: 然後我看代碼其實也是再參數化的過程(sigmoid後一樣加上08/03 09:06
35F:→ sxy67230: random uniform distribution),不知道有沒有回答你的08/03 09:06
36F:→ sxy67230: 問題。08/03 09:06
不好意思,之前一直忘記回覆 很感謝兩位的詳細解釋! ※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP