1.2 泛化、过拟合与欠拟合

目录
1 监督学习
1.1分类与回归
1.2 泛化、过拟合与欠拟合
1.3 监督学习算法
1.3.1 KNN(K- )
1.3.2 线性模型
1.3.3 决策树
随机森林
梯度提升回归树(梯度提升机)
1 监督学习 1.1分类与回归
监督学习问题主要有两种:分类()与回归()
分类问题的目标是预测类别标签(class label),包含二分类和多分类的问题(有限个结果);
回归问题的目标是预测一个连续值(实数 real )(无限个结果);
以上分类也不是绝对,回归里面也可以有分类(例如:逻辑回归和线性支持向量机(线性SVM)),分类里面也可做回归(例如:KNN )
回归的理解
要理解“回归”的概念,我们可以先看看它的历史 。回归这个词最早是被高尔顿提出的,高尔顿这个人是谁呢,他是达尔文的表兄 。他非常痴迷他兄长的进化论说,所以一直希望把进化论的理论应用到实证中,来证明不同人为什么会具有不同的特性 。
高尔顿在研究父母和子代身高关系时,观察得出的父母平均身高比子女平均身高矮一英寸,数据分布近似线性方程 。他发现,在实际中,父母身高更高或更矮时,子女实际身高并不是比父母身高高一英寸,而是父母过矮的,子女比父母身高高不止一英寸,父母过高的,子女比父母身高还矮一点,也就是更接近平均身高 。所以他认为自然界有一种约束力,使得身高的分布不会向高矮两个极端发展,而是趋于回到中心,所以称为回归 。
他把这种趋势平均化的现象写到了自己1886年的论文中 。论文的全名叫:in. 这篇论文当年被发在了大不列颠以及爱尔兰人类研究学院期刊上 。我们现今把论文中的这种“回归”现象称为:均值回归或者平庸回归( to the mean/ to ) 。
我的理解是回归其实是“找规律”,在大量的数据中,找到这个数据集理论的值,即理论中X本来应该对应的Y;如下图所示,所有散点在不受干扰的情况,应该分布在直线上,“回归”数据本来的面目 。
1.2 泛化、过拟合与欠拟合
泛化:如果一个模型能够对没见过的数据做出准确的预测,我们就说它能够从训练集泛化到测试集 。
过拟合:在拟合模型的时候过分关注训练集的细节(噪音),得到一个在训练集上的表现很好,但是不能泛化到新数据上模型 。
欠拟合:恰恰与过拟合相反,拟合模型的时候,在训练集的表现就很差了,模型过于简单 。
通俗的讲就是
欠拟合:光看书不做题觉得自己会了,上了考场啥都不会 。
过拟合: 做课后题全都能做对,上了考场还是啥都不会 。
差不多的拟合: 做了题,背了老师给画了重点,考试60分过了 。
优秀的拟合: 课后题全能作对,考试100分 。
特征选择就是划重点 。
1.3 监督学习算法 1.3.1 KNN(K- )
KNN算法可以说是最简单的机器学习算法,构建模型只需要保存训练数据集即可 。想要对新数据点做出预测,算法会在训练数据集中找到最近的数据点,也就是它的“最近邻” 。
KNN分类:
1、选用-learn的鸢尾花数据集(),同时分割为属性值与目标值()的训练(占75%)和验证集(占25%),分别为, , , ;
2、通过进行描点,观察各个属性之间的关系,是否独立和可以进行分类;
3、通过观察点图(属性之间交叉)可以看到,利用花瓣和花萼的测量数据基本可以将三个目标值分开,使用进行训练、拟合;
4、通过KNN对象的score方法计算验证集的精度 。得到的结果是0.≈0.97,也就是说,对于新的鸢尾花进行分类,可以认为我们模型预测有97%是正确的 。