公式： RMSprop是Adadelta的中间形式，也是为了降低Adagrad中学习速率衰减过快的问题

$\begin{aligned} & g_t = \nabla J(\theta_{t-1}) \\ & G_t =\gamma G_t + (1-\gamma)g_t \odot g_t \\ & \theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{G_t + \epsilon}}\odot g_t \end{aligned}$

Hinton建议γ=0.9,η=0.001

RMSprop.md

results matching ""

No results matching ""