公式:

gt=J(θt1)Gt=Gt+gtgtθt=θt1ηGt+ϵgt \begin{aligned} &g_t = \nabla J(\theta_{t-1}) \\ &G_t = G_t +g_t \odot g_t \\ &\theta_t = \theta_{t-1} - \frac {\eta}{\sqrt{G_t+\epsilon}} \odot g_t \end{aligned}

GtnnG_t \in \Re^{n*n} 是一个对角矩阵,其中第行的对角元素 eiie_{ii} 为过去到当前第i个参数θi\theta_i平方和

特点:能够对每个参数自适应不同的学习速率,对稀疏特征,得到大的学习更新,对非稀疏特征,得到较小的学习更新,因此该优化算法适合处理稀疏特征。

Adagrad 能很好的提高SGD的鲁棒性

results matching ""

    No results matching ""