第十五章 SPSS Modeler 集成学习算法之同质集成 _分类

前面小编和大家一起学习了若干分类器，一般情况下，我们在训练集上构建单个分类器解决问题。而对于集成学习算法，可以组合若干个基分类器，从而提升分类器的预测性能。通俗说，就是三个臭皮匠赛过诸葛亮。
如果基分类器的数量趋于无穷多，那么集成分类器的错误率是否会等于0呢？
不会，因为集成分类器错误率趋于0需要达到以下条件：
（1）基分类器的错误率要低于0.5%；
（2）基分类器之间相互独立。
一般的，我们是基于同一数据集进行分类器的训练，很难满足分类器间相互独立的条件。在实际中，只能尽量保证分类器之间不存在强相关的情况。当所有基分类器完全相关时，组合分类器的性能不会有任何改善。
同质集成：指所有基分类器都是由同一种算法所产生的。
同质集成学习方法：,,随机森林。
一、
,也称为袋装法，是最为经典的并行集成算法。
1.1 过程：对原始训练数据集进行有放回的重复抽样达到目的。
1.2 结果输出：
① 分类任务：少数服从多数的原则集成多个分类器结果。（出现平票情况，可以利用准确率进行分类器加权或直接从平票结果中随机选择一个）
② 回归任务：对多个分类器的预测值求平均作为最终的预测结果。
1.3 步骤：分类任务为例
（1）输入：
包含n个样本的训练数据集D；
基分类器算法f；
设定基分类器构建个数N 。
（2）for i in 1:N do 。
（3）从初始数据集D中有放回的抽取n个样本，生成自助训练集Di 。
（4）基于训练集Di ，训练获得基分类器fi 。
（5）end for。
（6）输出。
各个基分类器是独立生成的，因此可以使用并行的方法提高效率。算法主要用于降低方差，同时对噪声样本具有较强的抗干扰能力，因此能够减少模型过拟合的风险。
SPSS 中，作为提高模型稳定性的选项。
二、
最为经典的串行集成算法。
2.1 过程：下一个分类器将根据上一个分类器的预测结果对样本的权重进行调整，对于错判样本将给予更大的权重，从而使得新的分类器更加关注错误样本的预测。
2.2 步骤：分类任务为例，算法
（1）输入：
包含n个样本的训练数据集D；
基分类器算法f；
设定基分类器构建个数N 。
（2）初始化样本权重w1 。
（3）for i in 1:N do 。
（4）从初始数据集D中基于样本权重wi有放回的抽取n个样本，生成训练集Di 。
（5）基于训练集Di ，训练获得基分类器fi 。
（6）计算基分类器fi的加权误差zi 。

文章插图
（7）if zi >0.5 then 。
（8）重新初始化样本权重wi 。
（9）返回步骤（4）。
（10）end if 。
（11）计算分类器权重。
（12）更新下一轮的抽样权重。
（13）end for 。
（14）输出。
算法主要用于降低偏差，通过对错分样本赋予“更高”的权重，能够通过集成实现更高的准确度。由于其对异常点更加敏感，因此在某些情况下更容易出现过拟合的情况。
SPSS 中，作为模型准确性的选项。
三、随机森林
如果决策树的最终输出是一棵树，那么随机森林的最终输出就是一片森林。