micro-averaging(微平均):在多类别/多标签评估中,把所有类别的预测结果先汇总成整体的 TP/FP/FN(真阳性/假阳性/假阴性等),再计算 Precision、Recall、F1 等指标。它会让样本量更大的类别影响更大,常用于类别不均衡时的整体表现衡量。
(另有相关概念 macro-averaging(宏平均),按类别分别算指标再平均。)
/ˈmaɪkroʊ ˈævərɪdʒɪŋ/
Micro-averaging gives one overall F1 score across all classes.
微平均会在所有类别上给出一个整体的 F1 分数。
In a highly imbalanced dataset, micro-averaging can look strong because it is dominated by frequent classes, so it may hide poor performance on rare labels.
在类别极不均衡的数据集中,微平均可能看起来表现很好,因为它主要被高频类别主导,从而掩盖对低频标签的糟糕效果。
由 **micro-**(“微观的、整体汇总层面”)+ averaging(“求平均”)构成。该术语在信息检索与机器学习评价中流行,用来表示“先把各类计数合并到一个总表,再计算指标”的平均方式,与按类别分别求值的 macro-averaging 相对。