作者yiche (阳光洒肩头 彷若自由人)
看板DataScience
标题Re: [问题] 请问有人能用policy gradient的方法(vani
时间Fri Sep 3 11:22:44 2021
Reinforcement Learning的算法发展或是说解题思维分为三种:
1. Value based
2. Policy based
3. Actor Critic,兼容1+2
action_t = f(state_t)
RL要学的正好就是这个function f
1. 透过最佳化Q值来得出f
2. 则是直接学这个f
我认为殊途同归,但各有优劣
我并没有真的在mountain car这个环境中实作过算法
不过我相信PG算法是做得到的
底下这篇论文,提出了个PG方法於mountain car上实作,并且有做比较实验,请见论文Fi
gure3
也许值得原po研读一下
https://reurl.cc/VEG7A5
※ 引述《yuwenche (yuwenche)》之铭言:
: 请问有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解决"MountainCar-
v0
: 问题吗? 或这问题只能用value learning methods(DQN,DRQN,GAIL等)才能解出?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.15.106 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1630639366.A.AE1.html
※ 编辑: yiche (114.37.15.106 台湾), 09/03/2021 11:24:39
1F:→ yuwenche: 首先感谢所提供的意见及资料. 不过, 这个方法应该不能 09/04 12:58
2F:→ yuwenche: 算是policy gradient algorithm.如题目所提的 GAIL,基 09/04 12:59
3F:→ yuwenche: 本上是TRPO和GAN的结合,可用来解出这个问题, 但如果单 09/04 13:00
4F:→ yuwenche: 用TRPO就解不出来了. 09/04 13:00
5F:→ yuwenche: 其实作为一个 RL pactitioner, 也不会在意是否为policy 09/04 13:01
6F:→ yuwenche: gradient或 MountainCar问题, 只要能解决真实问题就好( 09/04 13:03
7F:→ yuwenche: 会抓老鼠的就是好猫). 不过真实世界的问题, 往往比能用 09/04 13:04
8F:→ yuwenche: 数学描述的模型要复杂许多 09/04 13:09
9F:→ yuwenche: ,因此先验证演算法和程式没问题, 底下才会作得扎实. 09/04 13:10