1.2 泛化、过拟合与欠拟合 _决策树

目录
1 监督学习
1.1分类与回归
1.2 泛化、过拟合与欠拟合
1.3 监督学习算法
1.3.1 KNN(K- )
1.3.2 线性模型
1.3.3 决策树
随机森林
梯度提升回归树（梯度提升机）
1 监督学习 1.1分类与回归
监督学习问题主要有两种：分类（）与回归（）
分类问题的目标是预测类别标签（class label），包含二分类和多分类的问题（有限个结果）；
回归问题的目标是预测一个连续值（实数 real ）（无限个结果）；
以上分类也不是绝对，回归里面也可以有分类（例如：逻辑回归和线性支持向量机（线性SVM）），分类里面也可做回归(例如：KNN )
回归的理解
要理解“回归”的概念，我们可以先看看它的历史。回归这个词最早是被高尔顿提出的，高尔顿这个人是谁呢，他是达尔文的表兄。他非常痴迷他兄长的进化论说，所以一直希望把进化论的理论应用到实证中，来证明不同人为什么会具有不同的特性。
高尔顿在研究父母和子代身高关系时，观察得出的父母平均身高比子女平均身高矮一英寸，数据分布近似线性方程。他发现，在实际中，父母身高更高或更矮时，子女实际身高并不是比父母身高高一英寸，而是父母过矮的，子女比父母身高高不止一英寸，父母过高的，子女比父母身高还矮一点，也就是更接近平均身高。所以他认为自然界有一种约束力，使得身高的分布不会向高矮两个极端发展，而是趋于回到中心，所以称为回归。
他把这种趋势平均化的现象写到了自己1886年的论文中。论文的全名叫：in. 这篇论文当年被发在了大不列颠以及爱尔兰人类研究学院期刊上。我们现今把论文中的这种“回归”现象称为：均值回归或者平庸回归（ to the mean/ to ）。
我的理解是回归其实是“找规律”，在大量的数据中，找到这个数据集理论的值，即理论中X本来应该对应的Y；如下图所示，所有散点在不受干扰的情况，应该分布在直线上，“回归”数据本来的面目。
1.2 泛化、过拟合与欠拟合
泛化：如果一个模型能够对没见过的数据做出准确的预测，我们就说它能够从训练集泛化到测试集。
过拟合：在拟合模型的时候过分关注训练集的细节（噪音），得到一个在训练集上的表现很好，但是不能泛化到新数据上模型。
欠拟合：恰恰与过拟合相反，拟合模型的时候，在训练集的表现就很差了，模型过于简单。
通俗的讲就是
欠拟合:光看书不做题觉得自己会了，上了考场啥都不会。
过拟合: 做课后题全都能做对，上了考场还是啥都不会。
差不多的拟合: 做了题，背了老师给画了重点，考试60分过了。
优秀的拟合: 课后题全能作对，考试100分。
特征选择就是划重点。
1.3 监督学习算法 1.3.1 KNN(K- )
KNN算法可以说是最简单的机器学习算法，构建模型只需要保存训练数据集即可。想要对新数据点做出预测，算法会在训练数据集中找到最近的数据点，也就是它的“最近邻” 。
KNN分类：
1、选用-learn的鸢尾花数据集（），同时分割为属性值与目标值（）的训练（占75%）和验证集（占25%），分别为, , , ；
2、通过进行描点，观察各个属性之间的关系，是否独立和可以进行分类；
3、通过观察点图（属性之间交叉）可以看到，利用花瓣和花萼的测量数据基本可以将三个目标值分开，使用进行训练、拟合；
4、通过KNN对象的score方法计算验证集的精度。得到的结果是0.≈0.97，也就是说，对于新的鸢尾花进行分类，可以认为我们模型预测有97%是正确的。