Kullback–Leibler divergence(KL 散度)是用来衡量两个概率分布之间差异的量,常写作 (D_{KL}(P|Q))。它通常被解释为:当真实分布是 (P) 却用近似分布 (Q) 来编码或建模时,额外“损失”的信息量(以信息论单位计)。
注:它不是严格意义上的距离(一般不对称,且不满足三角不等式)。
/ˈkʊl.bæk ˈlaɪb.lər dɪˈvɝː.dʒəns/
We minimized the Kullback-Leibler divergence between the model and the data.
我们最小化了模型分布与数据分布之间的 KL 散度。
Because (D_{KL}(P|Q)) is asymmetric, swapping (P) and (Q) can change the result dramatically in variational inference.
由于 (D_{KL}(P|Q)) 是不对称的,在变分推断中交换 (P) 和 (Q) 可能会使结果发生显著变化。
该术语来自两位统计学家/信息论学者 Solomon Kullback 与 Richard A. Leibler 的姓氏。他们在 1951 年的论文中系统提出并研究了这一用于度量分布差异的量,因此被命名为 “Kullback–Leibler divergence(库尔贝克–莱布勒散度)”。“divergence” 在这里指“偏离/差异程度”,并不等同于几何意义上的“距离”。