交叉熵损失函数公式_机器学习-交叉熵与损失函数

一、信息是什么?
信息很抽象,看不见摸不着,却似乎又无处不在,一封邮件、一首歌、一则新闻、一本书、一张地图、一句话......
但信息究竟是什么?
朗文双解词典:
: Facts orthat tell youabout a , , event, etc.
知乎大神:
1、从“你不知道”的状态变成“你知道”的状态,这个过程中传送的“东西”,就叫信息 。
2、信息是发送者和解读者的相关 base之间的diff 。
3、让你搞清状况的东西 。
但所有的以上答案,都可以用信息论之父香农的定义来概括:
信息是用来消除不确定的东西 。
比如:
路标指示信息,可以消除岔路口方向的不确定性,帮助你选择正确的道路 。
一封家书,可以告知你家里的情况,消除你对一些不确定状况的顾虑,让你安心的学习、工作 。
天气预报可以帮你确定未来的天气,帮助你更好的决定下一步的安排 。
二、信息的传递
信息传递的方式有很多中,比较古老的像周幽王烽火戏诸侯 。那个时候,技术手段比较落后,而军情又十万火急,于是就想到了用烽火来进行传递 。但由于烽火只有点燃和未点燃两种状态,所以能表达的内容十分有限 。
后来有了电报,情况好很多 。但由于发送接受需要编译码,操作复杂,效率比较低,也只能传输少量的信息 。并且价格昂贵,通常是按字数收费 。
所以电报的内容通常都很精炼 。比如,你要发送:
“家里又急事儿,赶快回来一趟 。”
为了省钱,结果可能就会变为:
“事急,速回 。”
但有些情况,通过精简文字是行不通的 。比如,你要发送一段诗:
“轻轻的我走了,
正如我轻轻的来;
我轻轻的招手,
作别西天的云彩 。”
少一个字,诗的意境就会大打折扣 。
但从诗的内容上来看,确实有很多重复的字,难道除了减字儿就没有其它辙了吗?
当然不是 。
我们知道,电报是通过电报码来发送的,就是一个个的0和1的状态 。分析一下,这段诗中我们一共用到了16个汉字 。如果用二进制对其进行编码,需要:
个bit位 。编码如下:
全诗一共有26个字,这样我们就需要发送:
26×4 = 104
个bit位 。
如果我们换一种编码方式,用少的位表示出现概率大的字,多的位表示出现概率低的字,也就是哈夫曼编码,看看结果如何 。
首先统计诗中文字出现的概率:
然后构造哈夫曼树如下:
编码结果:
这样,我们需要发送的bit数就变为:
6×2+4×3+3×3+1×5×10+1×4×3 = 95
比先前的编码少9个bit 。同样达到了精简内容的目的 。
再后来有了电话、手机、互联网,这种限制越来越小 。现在我们可以通过互联网很轻松的传递以T计的内容,在线观看高清电影 。
三、信息如何衡量?
在电报的发送中我们已经看到,找出一种衡量信息多少的方式非常重要 。就像时间有秒,质量有克,距离有米等 。那信息呢?既然信息是用来消除不确定的东西,如何衡量它的大小?也就是说如何知道在消除一个不确定事件的时候需要多少信息?
比如,要想知道明天太阳是否会照常升起,需要多少信息?
按以往的经验,太阳照常升起的概率几乎是1,所以几乎不需要猜测就能知道结果 。
但如果是掷一枚硬币,想知道它是不是正面,需要多少信息?
硬币的结果只有两种,非正即反,概率都是1/2 。所以只需要一次猜测就能知道结果 。
假设实际结果为正面 。
如果猜正面,结果正确,结束 。如果猜反面,被告知结果错误,同样可以推测出来正确结果是正面 。