交叉熵损失函数公式_机器学习-交叉熵与损失函数( 二 )


所以只需猜测一次 。
再比如,一道选择题有A、B、C、D四个选项,要猜出正确结果,又需要多少信息呢?
四个选项概率相等,都是1/4,假设正确答案为C 。
我们先将选项分成两组:
第一组:A、B
第二组:C、D
【交叉熵损失函数公式_机器学习-交叉熵与损失函数】第一次猜测:如果猜第一组,被告知错误,那么就知道答案在第二组 。如果猜第二组,正确 。
第二次猜测:如果猜C,得出结果,猜测结束 。如果猜D,被告知错误,于是得出C为正确答案 。
可以看出,需要猜测两次 。
由以上例子可以看出,事件发生的概率越小,不确定性越大,消除不确定性需要的信息量就越大 。所以信息量和概率有关系,并且是反相关 。
回过头来看上面的例子,
太阳照常升起的概率为1:
硬币为正面的概率为?:
答案为C的概率为?:
将上面三个等式两边以2为底取对数,并添加负号,有:
?
?
0、1、2正好对应我们获取正确答案的猜测次数 。也就是消除不确定性需要的信息量 。
进一步推广出去,香农把:
定义为信息量 。对数的底为2只是其中的一种情况,此时信息量的单位为bit 。
有了这个式子,就可以量化信息了 。
四、什么是信息熵?
有了信息量为什么还要信息熵呢?信息熵又是个啥?
假设你是一个经验丰富的工程师,在维修一台电子设备,引发设备故障的原因有A、B、C、D四种 。
如果四种原因的概率相同,都是1/4,根据之前信息量的计算公式,很容易就能算出来:
最多两次能排查出故障原因 。
但如果引发故障原因的概率不等呢?比如,A的概率为1/2,B的概率是1/4,C、D的概率是1/8 。
直觉告诉我们应该先排查A,然后是B,最后才是C、D 。需要排查的次数是四种原因信息量的期望,为:
小于2 。
等概率情况信息量的期望为:
等于单个选项的信息量 。
所以,有些情况,仅有信息量是不够的 。还需要知道信息量的期望,这就是信息熵 。
信息熵:平均信息量,信息量的期望 。
五、什么是相对熵?
如何衡量两个随机变量概率分布的相似程度?
我们已经有了信息熵的概念,就是信息量的期望,也叫平均信息量 。那能不能简单的就用信息熵来衡量呢?
显然不能 。
比如,两个随机变量x和y的概率分布如下:
二者的信息熵:
?
是相等的,
但概率分布明显差异很大 。所以,简单的用信息熵来衡量概率分布的相似程度是行不通的 。
但是不是意味着信息熵就不能用了呢?
不是,只不过要变一变 。
选用一个固定的概率分布来求信息熵:
或者
于是,便有:
或者:
这样用来衡量概率分布的差异就没问题了 。而:
就称为p对q的相对熵 。
总结起来:
相对熵就是:描述两个概率分布P和Q差异的一种方法 。
六、损失函数与交叉熵
机器学习中,实际分布为p,预测分布为q 。训练的过程就是调整参数使q不断逼近p的过程 。调整的依据就是q与p的差 。
如何衡量这个差呢?
就可以用相对熵:
但由于实际分布的熵:
固定不变 。
所以可以省略简化,只优化:
部分就可以了 。
?H(p||q)又被称为交叉熵 。交叉熵主要度量两个概率分布间的差异性信息 。