交叉熵损失函数公式_机器学习-交叉熵与损失函数( 二 ) _概率

所以只需猜测一次。
再比如，一道选择题有A、B、C、D四个选项，要猜出正确结果，又需要多少信息呢？
四个选项概率相等，都是1/4，假设正确答案为C 。
我们先将选项分成两组：
第一组：A、B
第二组：C、D
【交叉熵损失函数公式_机器学习-交叉熵与损失函数】第一次猜测：如果猜第一组，被告知错误，那么就知道答案在第二组。如果猜第二组，正确。
第二次猜测：如果猜C，得出结果，猜测结束。如果猜D，被告知错误，于是得出C为正确答案。
可以看出，需要猜测两次。
由以上例子可以看出，事件发生的概率越小，不确定性越大，消除不确定性需要的信息量就越大。所以信息量和概率有关系，并且是反相关。
回过头来看上面的例子，
太阳照常升起的概率为1：
硬币为正面的概率为?：
答案为C的概率为?：
将上面三个等式两边以2为底取对数，并添加负号，有：
?
?
0、1、2正好对应我们获取正确答案的猜测次数。也就是消除不确定性需要的信息量。
进一步推广出去，香农把：
定义为信息量。对数的底为2只是其中的一种情况，此时信息量的单位为bit 。
有了这个式子，就可以量化信息了。
四、什么是信息熵？
有了信息量为什么还要信息熵呢？信息熵又是个啥？
假设你是一个经验丰富的工程师，在维修一台电子设备，引发设备故障的原因有A、B、C、D四种。
如果四种原因的概率相同，都是1/4，根据之前信息量的计算公式，很容易就能算出来：
最多两次能排查出故障原因。
但如果引发故障原因的概率不等呢？比如，A的概率为1/2，B的概率是1/4，C、D的概率是1/8 。
直觉告诉我们应该先排查A，然后是B，最后才是C、D 。需要排查的次数是四种原因信息量的期望，为：
小于2 。
等概率情况信息量的期望为：
等于单个选项的信息量。
所以，有些情况，仅有信息量是不够的。还需要知道信息量的期望，这就是信息熵。
信息熵：平均信息量，信息量的期望。
五、什么是相对熵？
如何衡量两个随机变量概率分布的相似程度？
我们已经有了信息熵的概念，就是信息量的期望，也叫平均信息量。那能不能简单的就用信息熵来衡量呢？
显然不能。
比如，两个随机变量x和y的概率分布如下：
二者的信息熵：
?
是相等的，
但概率分布明显差异很大。所以，简单的用信息熵来衡量概率分布的相似程度是行不通的。
但是不是意味着信息熵就不能用了呢？
不是，只不过要变一变。
选用一个固定的概率分布来求信息熵：
或者
于是，便有：
或者：
这样用来衡量概率分布的差异就没问题了。而：
就称为p对q的相对熵。
总结起来：
相对熵就是：描述两个概率分布P和Q差异的一种方法。
六、损失函数与交叉熵
机器学习中，实际分布为p，预测分布为q 。训练的过程就是调整参数使q不断逼近p的过程。调整的依据就是q与p的差。
如何衡量这个差呢？
就可以用相对熵：
但由于实际分布的熵：
固定不变。
所以可以省略简化，只优化：
部分就可以了。
?H(p||q)又被称为交叉熵。交叉熵主要度量两个概率分布间的差异性信息。