公式: RMSprop是Adadelta的中间形式,也是为了降低Adagrad中学习速率衰减过快的问题
gt=∇J(θt−1)Gt=γGt+(1−γ)gt⊙gtθt=θt−1−ηGt+ϵ⊙gt \begin{aligned} & g_t = \nabla J(\theta_{t-1}) \\ & G_t =\gamma G_t + (1-\gamma)g_t \odot g_t \\ & \theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{G_t + \epsilon}}\odot g_t \end{aligned}gt=∇J(θt−1)Gt=γGt+(1−γ)gt⊙gtθt=θt−1−√Gt+ϵη⊙gt
Hinton建议γ=0.9,η=0.001