Adagrad(Adaptive Gradient 的缩写)是一种用于机器学习/深度学习优化的自适应学习率算法:它会根据每个参数过去梯度的累积大小,自动调整该参数的学习率,常用于稀疏特征场景(如自然语言处理中的词向量/特征)。
/ˈædəɡræd/
Adagrad is useful when features are sparse.
Adagrad 在特征稀疏时很有用。
Because Adagrad scales learning rates by the history of squared gradients, some parameters can learn quickly at first but slow down too much later in training.
由于 Adagrad 会用历史平方梯度来缩放学习率,一些参数在训练初期可能学得很快,但后期可能减速过多。
Adagrad 来自 “Adaptive”(自适应的)+ “Grad(ient)”(梯度)的组合/缩写,字面意思是“自适应梯度”。它强调对不同参数使用不同、随时间变化的学习率。