[问题] 深度强化学习 (MADDPG)

时间Fri Jul 30 19:47:38 2021

MADDPG的Action Space必须是连续的不过小弟在翻文献回顾的时候有些Action Space是离散的上网爬了一下文似乎是利用Gumbel-Softmax去逼近然而这部分我就没有深究了 (文献中也没明说怎麽实作的) 不过我在想实作上能否套用MADDPG的架构 (中心化训练、去中心化执行) 但实际上在local的Agent是采A2C的方式去选择Action呢? 麻烦各位前辈指教了谢谢！ --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.4.209 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1627645660.A.815.html

1^F：推 sxy67230: Gumbel-softmax主要作用在取样的时候，往往我们在取样 07/31 10:38

2^F：→ sxy67230: 的时候都是用random choice或是加入机率分布因素再取arg 07/31 10:38

3^F：→ sxy67230: max，但是如果你要在你整个网路训练过程中加入就会导致 07/31 10:38

4^F：→ sxy67230: 你的反向传播失效，因为这两个步骤是不可微的，这样你就 07/31 10:38

5^F：→ sxy67230: 没办法传导你的梯度，所以用gumbel softmx再参数化去逼 07/31 10:38

6^F：→ sxy67230: 近random choice的取样效果同时让整个过程可微。 07/31 10:38

7^F：→ johnnyjana: 不知道楼上在讲什麽 08/01 14:00

8^F：→ johnnyjana: gumbel softmax就只是个trick 把原本的probablity 08/01 14:04

9^F：→ johnnyjana: output 除上很小的"tau" 过“可微”的softmax之後机 08/01 14:04

10^F：→ johnnyjana: 率分布很像是discrete的 08/01 14:04

了解了，不过我有看到一篇文献是将binary的action space过sigmoid 该篇文献最後一层通过y=sigmoid(1000x)，再output出来一样都是逼近成类似discrete的机率分布想请问这样的做法跟gumbel-softmax的差异在哪里呢？或者说有一定要利用gumbel-softmax的理由不可吗？ ※ 编辑: chhuang17 (140.112.10.31 台湾), 08/01/2021 15:13:03

11^F：推 johnnyjana: 这个深度学习的问题没有正确答案只能都试试看最後在 08/01 16:03

12^F：→ johnnyjana: paper唬烂一个答案唯一比较客观分析还是看function 08/01 16:03

13^F：→ johnnyjana: 斜率比较两者在你的dataset剃度的问题 08/01 16:03

14^F：推 sxy67230: 确实有一些前提没有补充到，想说让原PO去查文献大概就 08/03 08:42

15^F：→ sxy67230: 明白了。首先，MADDPG整体架构还是一个DDPG，只是扩展08/03 08:42

16^F：→ sxy67230: 成考量multi-agent的状况。然後考量传统DPG采用待优化po08/03 08:42

17^F：→ sxy67230: licy跟取样policy不同以解决exploration的问题，DDPG则08/03 08:43

18^F：→ sxy67230: 是加入reparameterization(再参数化)的技巧克服他，这08/03 08:43

19^F：→ sxy67230: 样就不用再优化跟取样用不同的policy。08/03 08:43

20^F：推 sxy67230: 另外，gumbel sofmax输入也是离散分布，如果用输出也说08/03 08:50

21^F：→ sxy67230: 是离散会很容易误导就是了。实际上应该是加入了gumbel d08/03 08:50

22^F：→ sxy67230: istribution後除以一个tau再做softmax，这样就可以用tau08/03 08:50

23^F：→ sxy67230: 这个超参控制取样的soft程度而已。08/03 08:50

24^F：推 sxy67230: 这样就可以让整体保有随机性，而gumbel分布就是很好描述08/03 08:59

25^F：→ sxy67230: 有极值的分布，所以用再分类再取样的效果就很合理，藉以08/03 08:59

26^F：→ sxy67230: 达到我们想优化的是P(zlx)这样的空间分布，可以参考VAE08/03 08:59

27^F：→ sxy67230: 的文献实际上VAE也是这样的技巧取样，实际上可以去看一08/03 08:59

28^F：→ sxy67230: 下VI的推导，VAE算是一个很有统计学习加上随机程序的模08/03 08:59

29^F：→ sxy67230: 型，整体推导流程也很优美，DDPG的作者也是借鉴这样的08/03 08:59

30^F：→ sxy67230: 思路来做policy过程的取样的。08/03 08:59

31^F：推 sxy67230: 然後再回到原PO sigmoid的问题上，我们如果假设输入是服08/03 09:06

32^F：→ sxy67230: 从一个Bernoulli distribution的，那sigmoid跟 softmax08/03 09:06

33^F：→ sxy67230: 就是等价的，实际MADDPG的作者再实现上就是用这种技巧，08/03 09:06

34^F：→ sxy67230: 然後我看代码其实也是再参数化的过程(sigmoid後一样加上08/03 09:06

35^F：→ sxy67230: random uniform distribution)，不知道有没有回答你的08/03 09:06

36^F：→ sxy67230: 问题。08/03 09:06

不好意思，之前一直忘记回覆很感谢两位的详细解释！ ※ 编辑: chhuang17 (223.137.144.83 台湾), 08/10/2021 01:49:07

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] 深度强化学习 (MADDPG)

热门看板

赞助商连结