E(Explore) & E (exploit) 冷启动
解决的问题: 这个模型的核心思想是在探索和利用寻求一个平衡点,探索就是通过进行更多的试探以获取更多的知识,而利用是对当前已经获取的知识的使用
应用领域: 在线排序(Online Ranking) CTR预估 Stock Option 选择最好的股票进行投资 A/B test 快速选择好的AB版本,快速淘汰差的
怎么利用观察到的频率,来最好的预估真实的概率?
| 算法 | 描述 | 优点 | 缺点&待解决 | 
|---|---|---|---|
| Random | 每次随机概率进行探索 | 傻 | |
| Naive | 每个尝试一定次数N,然后选择频率最高的进行利用 | 1.N靠谱么 2. 次数多了后概率变化 3. 全量尝试N次浪费 | |
| (Bandit) | 每次机会以概率去探索,1-概率来利用 | 1.它能够应对变化,如果概率分布变了,它能及时改变策略2. 机制有趣,有事探索有时'赚钱' | 1.的设定,应不应该随着时间变化。 | 
| softmax | 基于当前已知的平均奖赏来对探索和利用进行折中 | ||
| UCB1 | 以(1-1/t)的上限进行探索 | ||
| UCB-95% | 取95%的置信区间 | 

- 强化学习任务的最终奖赏 是在多步动作之后才能观察到
- 可能一个动作的奖赏是来自于一个概率分布,而不是一个确定值
- 最简化:单步强化学习 对应的理论模型。 K-armed bandit
- 探索-利用窘境
- e-greedy, softmax 优劣取决于具体应用 参见机器学习 377图16.6
- 分为有模型学习(model-base learing)和 免模型学习(model-free learning)
 有模型学习 即机器已对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况 在已知模型的环境中学习 免模型学习 现实中很难知道环境的转移概率,奖赏函数,环境中一共有多少状态,比有模型学习困难
- 有模型学习 策略评估 累计奖赏 - 状态值函数 Q 状态-动作值函数- 策略改进 - 策略迭代 值迭代
- 免模型学习 - 同策略蒙特卡罗强化学习算法
ref:https://zh.wikipedia.org/wiki/%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E5%88%86%E5%B8%83