公式：

$\begin{aligned} &g_t = \nabla J(\theta_{t-1}) \\ &G_t = G_t +g_t \odot g_t \\ &\theta_t = \theta_{t-1} - \frac {\eta}{\sqrt{G_t+\epsilon}} \odot g_t \end{aligned}$

$G_t \in \Re^{n*n}$ 是一个对角矩阵，其中第行的对角元素 $e_{ii}$ 为过去到当前第i个参数 $\theta_i$ 的平方和

特点：能够对每个参数自适应不同的学习速率，对稀疏特征，得到大的学习更新，对非稀疏特征，得到较小的学习更新，因此该优化算法适合处理稀疏特征。

Adagrad 能很好的提高SGD的鲁棒性

Adagrad.md

results matching ""

No results matching ""