作者yuwenche (yuwenche)
看板DataScience
标题[讨论] 股票当冲模型是否符合MDP的特性?
时间Mon Oct 23 14:05:49 2023
我有一个股票当冲模型:状态有6个state,分别为 t、t-1、t-2、t-3的价格对昨日收盘
的值取对数,即 log(Pt/Pc)、log(Pt-1/Pc)、 log(Pt-2/Pc) 、 log(Pt-3/Pc);另外两
个则是t时间的价格(标准化)和部位(-1、0、+1)。动作有三个:买进(+1) 、卖出(-1)
、不动作(0) 。
教科书说MDP(Markov Decision Process)是强化学习(Reinforcement Learning)的一项重
要性质,因为有了这个性质,我们才能只针对当前的状态作出动作选择,而无需去考虑以
前的状态。请问这个模型是否符合MDP的特性?
请不要拿『股票涨跌可预测吗?』这种哲学问题,或『影响股价的因素不仅是历史股价,
还有更多的因素,如公司的近况、总经数据 …』这类社会科学的观点来讨论,请针对数学
模型来讨论,谢谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.241.21.152 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1698041151.A.491.html
1F:→ chang1248w: 这类文献应该很多吧 10/23 14:20
2F:→ kriswu8021: 你感觉好像没有很懂mdp 10/25 22:10
3F:推 penolove5566: POMDP 10/27 13:55
4F:推 a22735557: 同二楼 10/27 18:35
5F:推 pinner: 为啥没有很懂 定义都说出来了 只是不知道自己的state有没 10/28 10:44
6F:→ pinner: 有符合不是吗 10/28 10:44
7F:→ cipherman: 懂的话就直接拿price data验证了,不会在这里问 11/01 15:23
8F:→ yuwenche: 如果真懂就写些有意义的东西,只是摆出一付冷嘲的态度 11/07 09:26
9F:→ yuwenche: 不代表你就懂。That sucks. 11/07 09:26
10F:→ kriswu8021: 我没有冷嘲热讽啊 我只有说你好像没有很懂 11/07 16:09
11F:→ kriswu8021: 你要不要从最基础的开始 像是写一下你觉得State Acti 11/07 16:11
12F:→ kriswu8021: on Transition是什麽 连这种effort都没有不就只是伸 11/07 16:11
13F:→ kriswu8021: 手牌想要别人告诉你答案吗 11/07 16:11
14F:→ kriswu8021: 你今天做了action 那transition是什麽 reward是什麽 11/07 16:13
15F:→ kriswu8021: 这种应该很基本的吧 写得出来不就知道了吗 11/07 16:13
16F:→ kriswu8021: 唉算了直接讲结论 你做了这些action可是下一个state 11/07 16:24
17F:→ kriswu8021: 会因为你做的action改变吗 不会啊 这样你要说他是MDP 11/07 16:24
18F:→ kriswu8021: 吗 可能吧 可是这种情况下你做什麽action根本就没差 11/07 16:24
19F:→ kriswu8021: 吧 11/07 16:24
20F:→ kriswu8021: 问题就是你的state不应该设定成什麽t t-1之类的价格 11/07 16:24
21F:→ kriswu8021: 而是应该是你的action可以影响的 如果你有好好想过的 11/07 16:24
22F:→ kriswu8021: 话大概就不会问什麽是不是MDP的问题了吧 11/07 16:24
23F:→ cipherman: 楼上真好心。这里补充一下,其实action不影响下一个 11/11 22:15
24F:→ cipherman: state,其实问题就退化成bandit problem,算MDP的特例 11/11 22:17
25F:→ cipherman: 这个问题其实照MDP的定义,然後拿data验一下就有答案了 11/11 22:19
26F:→ cipherman: 但要用bandit的方式做成strategy还要一些前提成立才行 11/11 22:24
27F:→ cipherman: 最後这里加点有意义的东西: 网路上没有人义务教会你 11/11 22:25
28F:推 DrizztMon: 真的 11/12 21:38
29F:→ chang1248w: 说实在,没有社经上的假设,那模型就没办法应用 11/16 12:28
30F:→ yuwenche: 我已经近一个月没上这个频道了,直到昨天才看到留言。 12/02 09:00
31F:→ yuwenche: 实际上github或网路上已有不少类似的例子,大部分也都 12/02 09:01
32F:→ yuwenche: 采取时间差分的作法(t,t-1,t-2…) ,难道他们都错了吗? 12/02 09:03
33F:→ yuwenche: 股价本身或许不具MDP特性,但几个相连的股价至少就是 12/02 09:05
34F:→ yuwenche: POMDP,这就是将non-MDP转换为MDP的手段之一。另外, 12/02 09:06
35F:→ yuwenche: agent是藉着跟环境(state)互动改变自身的参数,而对下一 12/02 09:07
36F:→ yuwenche: 次作出最好的action,它是没办法改变state状态的。最後 12/02 09:09
37F:→ yuwenche: ,这个题目的困难程度远超过gym的环境,因它是一个非稳 12/02 09:10
38F:→ yuwenche: 态(non-stationary)的环境。 12/02 09:11
39F:→ diabolica: 同二楼~ 12/03 08:35
40F:推 ProTrader: 以前我作过类似的议题 就单纯分析K线型态预测涨跌 12/30 11:23
41F:→ ProTrader: 记得最後认为是交易价值太低放弃 没有正式回测过 12/30 11:26
42F:→ ProTrader: 我以前只会算马可夫链...现在也是 MDP是看这篇才知道 12/30 11:29
43F:→ ProTrader: 回到问题 我认同2楼说要找action可以影响的state 12/30 11:30
44F:→ ProTrader: 因为这才比较像普通人说的当冲交易实况 12/30 11:31
45F:→ ProTrader: 如果是市场主力想操控股价 那引入过去价格当state OK 12/30 11:33
46F:→ ProTrader: 最重要的你既然有模型有策略 直接回测看绩效不就好了 12/30 11:38
47F:→ ProTrader: 你要是有回测结果 可以讨论的题材会比较多 12/30 11:39