几个概念:
- 马尔科夫性
- 马尔科夫链
- 隐马尔科夫模型
- 马尔科夫决策过程
二维表格
| 不考虑动作 | 考虑动作 | |
|---|---|---|
| 状态完全可见 | 马尔科夫链MC | 马尔科夫决策过程MDP | 
| 状态不完全可见 | 隐马尔科夫模型HMM | 不完全观察马尔科夫决策过程POMDP | 
1.马尔科夫性(无后效性) Markov Property
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。 换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程 具有马尔科夫性质。具有马尔科夫性质的过程 通常称之为马尔科夫过程
2.马尔科夫链 Markov Chain 满足马尔科夫性质的随机变量序列 ,即给出当前状态,将来状态和过去状态是相互独立的。 通常用一系列有向图来描述马尔科夫链
3.隐马尔科夫模型 HMM 一种统计学模型,是马尔科夫链与无法观察的状态的结合
- 马尔科夫决策过程 MDP 也具有马尔科夫性,不同的是考虑了action,系统下个状态不仅和当前的状态有关,也和当前采取的动作有关
4元组/5元组 M =(S, A,Psa,R) S si 表示第i步状态 A ai 表示第i步动作 Psa 表示状态转移概率 R reward function 折合因子