Adagrad

释义 Definition

Adagrad（Adaptive Gradient 的缩写）是一种用于机器学习/深度学习优化的自适应学习率算法：它会根据每个参数过去梯度的累积大小，自动调整该参数的学习率，常用于稀疏特征场景（如自然语言处理中的词向量/特征）。

发音 Pronunciation (IPA)

/ˈædəɡræd/

例句 Examples

Adagrad is useful when features are sparse.
Adagrad 在特征稀疏时很有用。

Because Adagrad scales learning rates by the history of squared gradients, some parameters can learn quickly at first but slow down too much later in training.
由于 Adagrad 会用历史平方梯度来缩放学习率，一些参数在训练初期可能学得很快，但后期可能减速过多。

词源 Etymology

Adagrad 来自 “Adaptive”（自适应的）+ “Grad(ient)”（梯度）的组合/缩写，字面意思是“自适应梯度”。它强调对不同参数使用不同、随时间变化的学习率。

文学与著作中的用例 Literary Works

Adaptive Subgradient Methods for Online Learning and Stochastic Optimization（Duchi, Hazan, Singer，2011）——提出并系统化讨论 Adagrad。
Deep Learning（Ian Goodfellow, Yoshua Bengio, Aaron Courville，2016）——在优化章节中提及 Adagrad 及其与其他自适应方法的关系。
多篇自然语言处理与信息检索相关论文（尤其涉及稀疏高维特征或词表示训练的工作）常将 Adagrad 作为基线优化器之一。

Adagrad

释义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学与著作中的用例 Literary Works