代码收藏家技术教程 2022-07-22

交叉熵损失和二元交叉熵损失

一、什么是交叉熵损失(Cross Entropy Loss)

交叉熵是信息论的概念。WIKIPEDIA给出的交叉熵定义如下

上面的意思大概是说，给定两个概率分布p和q，通过q来表示p的交叉熵为

其中 $\mathit{E_p}[\cdot ]$ 是关于分布q的期望值算子。如果概率分布p和概率分布q是离散的，那么通过q来表示p的交叉熵为

交叉熵刻画的是两个概率分布之间的距离。交叉熵越小，两个概率分布越接近。举个例子

交叉熵损失定义为

其中， $\bold{y}_i$ 是标签值， $y_i'$ 是预测值。

注意，这里的预测值一般是通过数据和模型参数经过某种可导的计算后所求得的结果。交叉熵损失通过梯度下降来不断地使预测值的分布接近标签值的分布，与此同时模型的参数也得到更新，而这就是机器学习中所谓的学习。

二、什么是二元交叉熵损失(Binary Cross Entropy Loss)

二元交叉熵损失定义为

$\tiny \mathrm{BCELoss}=-\frac{1}{n}\sum_{i=1}^{n}[y_i\cdot \mathrm{log}p(y_i)+(1-y_i)\cdot \mathrm{log}(1-p(y_i))]$

其中 $\tiny y_i$ 是二元标签值0或者1， $\tiny p(y_i)$ 是属于 $\tiny y_i$ 标签值的概率。

可以轻易地分析出来，当标签值 $\tiny y_i=1$ 时， $\tiny 1-y_i=1-1=0$ ；当标签值 $\tiny y_i=0$ 时， $\tiny 1-y_i=1-0=1$ 。也就是说，在二元交叉熵损失函数第一项 $\tiny y_i\cdot \mathrm{log}p(y_i)$ 和第二项 $\tiny (1-y_i)\cdot \mathrm{log}(1-p(y_i))$ 之中，必定有一项的值为0。我们再来看第一项和第二项的函数图像（横坐标为 $\tiny p(y_i)$ ，纵坐标为 $\tiny \mathrm{BCELoss}$ ）：

当标签值 $\tiny y_i=1$ 时， $\tiny \mathrm{BCELoss}=-\mathrm{log}p(y_i)$ ，如果 $\tiny p(y_i)$ 接近1， $\tiny \mathrm{BCELoss}$ 接近0；如果 $\tiny p(y_i)$ 接近0， $\tiny \mathrm{BCELoss}$ 则变得无穷大。

当标签值 $\tiny y_i=0$ 时， $\tiny \mathrm{BCELoss}=-\mathrm{log}(1-p(y_i))$ ，如果 $\tiny p(y_i)$ 接近1， $\tiny \mathrm{BCELoss}$ 变得无穷大；如果 $\tiny p(y_i)$ 接近0， $\tiny \mathrm{BCELoss}$ 接近0。