作者Dyablo (Dyablo)
看板DataScience
标题Re: [问题] DRL的time step
时间Fri Oct 1 04:16:50 2021
回文赚一下P币
这种东西通常都是假设固定的 举例像是RL常用来当baseline的mujoco gym
虽然你看到的只是call一个step function所以乍看之下好像就是一个step
可是其实在simulation看起来其实是大约300还是400步左右了
所以如果你把一个simulation step当作一秒的话 那就是delta t=300s的概念
你今天的问题是说如果step不一样的话可不可以直接做update
理论上其实是不行的 因为你读的这些RL的方法基本上都是建构在unit timestep
的假设上面 所以你才会看到 t t+1这些subscript
那如果必须要做在continuous的话要怎麽办呢 这个你找一下continuous time RL
应该就会有你想要的东西了 不过这种东西实际上应用比较少 效果我猜可能也不怎麽样
回到刚刚的问题
如果你今天是做号志控制的话 我猜遇到的问题是 可能action是某个phase有几秒
这样一来就跟时间相关 你就不知道要怎麽固定每个step的长度对吧
其实这个很简单 就是在phase执行期间还是可以继续给action
只是给完以後不会有任何改变而已 就像是走迷宫的时候一直撞墙一样
你在这个时间点给了这个action 就不会对目前的状态有改变的情况一样
当然这样可能会有很多negative samples 这你就要针对你的情况去做一点处理
如果觉得每秒都要做一次太慢的话 也可以每N秒一次 这样你的action就会是k*N秒这样
当然应该有其他更好的做法啦 我只是来骗P币的
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 24.43.123.79 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1633033012.A.BE0.html
※ 编辑: Dyablo (24.43.123.79 美国), 10/01/2021 04:22:05
1F:推 chhuang17: 感谢大大的回覆!! 10/01 14:12