E(Explore) & E (exploit) 冷启动

解决的问题：这个模型的核心思想是在探索和利用寻求一个平衡点，探索就是通过进行更多的试探以获取更多的知识，而利用是对当前已经获取的知识的使用

应用领域: 在线排序（Online Ranking） CTR预估 Stock Option 选择最好的股票进行投资 A/B test 快速选择好的AB版本，快速淘汰差的

怎么利用观察到的频率，来最好的预估真实的概率？

算法	描述	优点	缺点&待解决
Random	每次随机概率进行探索	傻
Naive		每个尝试一定次数N，然后选择频率最高的进行利用	1.N靠谱么 2. 次数多了后概率变化 3. 全量尝试N次浪费
$\varepsilon-Greedy$ (Bandit)	每次机会以 $\varepsilon$ 概率去探索，1- $\varepsilon$ 概率来利用	1.它能够应对变化，如果概率分布变了，它能及时改变策略2. 机制有趣，有事探索有时'赚钱'	1. $\varepsilon$ 的设定，应不应该随着时间变化。
softmax	基于当前已知的平均奖赏来对探索和利用进行折中
UCB1	以(1-1/t)的上限进行探索
UCB-95%	取95%的置信区间

强化学习任务的最终奖赏是在多步动作之后才能观察到
可能一个动作的奖赏是来自于一个概率分布，而不是一个确定值
最简化：单步强化学习对应的理论模型。 K-armed bandit
探索-利用窘境
e-greedy, softmax 优劣取决于具体应用参见机器学习 377图16.6
分为有模型学习(model-base learing)和免模型学习(model-free learning)
有模型学习即机器已对环境进行了建模，能在机器内部模拟出与环境相同或近似的状况在已知模型的环境中学习免模型学习现实中很难知道环境的转移概率，奖赏函数，环境中一共有多少状态，比有模型学习困难

有模型学习策略评估累计奖赏

 状态值函数

 Q 状态-动作值函数

策略改进

 策略迭代
 值迭代

免模型学习

同策略蒙特卡罗强化学习算法

算法进化图

results matching ""