几个概念:

  1. 马尔科夫性
  2. 马尔科夫链
  3. 隐马尔科夫模型
  4. 马尔科夫决策过程

二维表格

不考虑动作 考虑动作
状态完全可见 马尔科夫链MC 马尔科夫决策过程MDP
状态不完全可见 隐马尔科夫模型HMM 不完全观察马尔科夫决策过程POMDP

1.马尔科夫性(无后效性) Markov Property

当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。 换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程 具有马尔科夫性质。具有马尔科夫性质的过程 通常称之为马尔科夫过程

2.马尔科夫链 Markov Chain 满足马尔科夫性质的随机变量序列 ,即给出当前状态,将来状态和过去状态是相互独立的。 通常用一系列有向图来描述马尔科夫链

3.隐马尔科夫模型 HMM 一种统计学模型,是马尔科夫链与无法观察的状态的结合

  1. 马尔科夫决策过程 MDP 也具有马尔科夫性,不同的是考虑了action,系统下个状态不仅和当前的状态有关,也和当前采取的动作有关

4元组/5元组 M =(S, A,Psa,R) S si 表示第i步状态 A ai 表示第i步动作 Psa 表示状态转移概率 R reward function γ\gamma 折合因子

ref: http://www.cnblogs.com/jinxulin/p/3517377.html

results matching ""

    No results matching ""