softmax(软最大函数):一种把一组实数(logits)转换成概率分布的函数,使所有输出都在 0 到 1 之间且总和为 1。常用于多分类模型的输出层与注意力机制中的归一化。除技术语境外,“softmax”很少用于日常英语。
/ˈsɔftˌmæks/
The model uses softmax to output class probabilities.
模型使用 softmax 输出各类别的概率。
After computing the logits, we apply softmax so the scores become a normalized probability distribution across all labels.
在计算出 logits 之后,我们应用 softmax,使这些分数在所有标签上变成归一化的概率分布。
softmax 是由 soft(“柔和的、平滑的”)+ max(“最大值”)构成的复合词,含义是“平滑版本的取最大值”。直观上,它不像 argmax 那样只选一个最大项,而是通过指数与归一化,让较大的值获得更高概率、较小的值仍保留一定权重。