作者chhuang17 ()
看板DataScience
标题[问题] DRL的time step
时间Thu Sep 30 16:21:00 2021
由於我们家实验室目前只有我做RL,所以又上来询问大家了
问题可能很幼幼班,还请大家见谅QQ
过往我们家的学长都是用DQN来做 (智慧号控相关)
以其中一位学长的论文为例
在action的选择是延长绿灯时间与否
Δt = 5s, 每5秒就会决定号志代理的动作
最近在文献回顾的时候,运用DDPG演算法的paper
在action的选择是直接决定下一时相的绿灯时间
paper里面也没有提及 Δt 的值是多少
这意思是time step并不是等长的吗? (当然每个episode都是等长的)
如果Δt不是固定的,这样是可以的吗?
麻烦大家帮忙解惑了,感谢QQ
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.234.247 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1632990062.A.5C7.html
1F:推 yiche: 一般来说,DQN(value based)的设计action space是离散的情 09/30 19:26
2F:→ yiche: 况,DDPG(policy based)则是continuous的action space,所 09/30 19:26
3F:→ yiche: 以这样的做法似乎是可以理解的。 09/30 19:26
4F:推 yiche: 建议可以看一下DDPG 算法的action设计映射到什麽区间 09/30 19:30
y大的意思是该篇paper使用DDPG演算法的action设计吗
该篇文献的action设计落在最小绿灯时间~最大绿灯时间这段区间
※ 编辑: chhuang17 (223.136.114.28 台湾), 09/30/2021 19:36:33
5F:推 yiche: 了解,其实我原本猜nn 输出action是0-1区间,没想到直接输 09/30 19:48
6F:→ yiche: 出成秒数区间,谢谢分享。 09/30 19:48
确实是有文献输出的action落在[0,1],定义为绿灯时间缩放因子
不过该篇的Δt是固定的,每隔Δt秒更新时制计画
这也是我目前论文采用的action设计
这篇贴文只是想厘清一些DDPG的观念,怕到时候meeting回答不出来><"
※ 编辑: chhuang17 (223.136.114.28 台湾), 09/30/2021 21:24:57
7F:推 yiche: 原始论文和DQN还差在targetNet是hard/soft update,不过我 09/30 22:07
8F:→ yiche: 自己的经验是都train得起来啦 (笑 09/30 22:07