公式:
是一个对角矩阵,其中第行的对角元素 为过去到当前第i个参数的平方和
特点:能够对每个参数自适应不同的学习速率,对稀疏特征,得到大的学习更新,对非稀疏特征,得到较小的学习更新,因此该优化算法适合处理稀疏特征。
Adagrad 能很好的提高SGD的鲁棒性
公式:
是一个对角矩阵,其中第行的对角元素 为过去到当前第i个参数的平方和
特点:能够对每个参数自适应不同的学习速率,对稀疏特征,得到大的学习更新,对非稀疏特征,得到较小的学习更新,因此该优化算法适合处理稀疏特征。
Adagrad 能很好的提高SGD的鲁棒性