1.2 基本术语

1.2 基本术语
前面引言没什么好记录的,先从基本术语开始记录吧 。PS: 本文仅做自己学习记录所用,有错误欢迎指出 。
1.2.1 有关数据的术语 数据集(data set):包含多组关于一个事件或对象的描述的记录 。样本():数据集中每一条记录都可以算作样本 。特征():反映事件或对象在某个方面的表现或者性质的事项被称为特征 。维数():每个样本所具有的d个特征称为样本的维数 。1.2.2 有关模型学习过程的术语 训练集( set):用于模型训练所使用的数据集 。假设():学得模型对应了关于数据的某种潜在规律 。测试集( set):学得模型后,使用其进行预测的样本称为测试集 。
第一章后续的感觉没有什么好记录,主要还得结合书上的例子和语句自己理解 。
2.1 经验误差与过拟合 误差(error):学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error) 。通俗来说就是你预测的输出和实际标签或者输出的差异 。训练误差( error)或经验误差( error):学习器的在训练集上的误差就被称作训练误差 。过拟合和欠拟合:过拟合和欠拟合是一组相反的概念,模型在训练集上表现得很好,但是在测试集上表现的不好,这种情况我们就可以认为学习器是一种过拟合状态 。相反,对训练样本的一般性质尚未学好的情况被称为欠拟合 。需要解释的是,无论何种情况,过拟合是无法彻底避免的,我们智能使用合适的方法手段,减少其风险 。2.2 几种数据集处理方法 方法名称方法介绍
留出法
将数据集D划分为两个互斥的集合,按这种方式取很多次,得到的结果取平均值作为实验评估结果
交叉验证法
先将数据集D划分为k个大小相似的互斥子集,然后每次使用k-1个子集的并集作为训练集,余下的做测试集,最终返沪这k个测试结果的均值
还有个自助法,我自己也没有很明确的理解,大致就是一种可重复采样的概念,将重复采样做多次取不同的数据 。自助法在集成学习上比较常见 。这边就不做记录,具体记录我就留在集成学习那部分里面 。
2.3 性能度量 2.3.1 混淆矩阵
关于这一部分我觉得有几个概念真的很不好理解,但是真正理解了的话,其实也很好理解 。反正就是只可意会,不可言传 。下面就来介绍一下这几个概念 。

1.2 基本术语

文章插图
下面是分类结果的混淆矩阵:
其他的一些相关度量标准
度量标准定义公式
错误率
分类错误的样本数占样本总数的比例
精度
分类正确的样本数占样本总数的比例
查准率(准确率)
真正的正例样本占预测为正例样本的比例
T P T P + F P \frac{TP}{TP+FP} TP+FPTP?
查全率(召回率)
预测正确的正例样本占真正正例总样本的比例
T P T P + F N \frac{TP}{TP+FN} TP+FNTP?
一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低 。关于这部分在我学习的时候有过相关讨论,关于下图查全率和查准率,是一条**不严格递减(非单调的、不平滑的)**的曲线,在下图中是比较理想化的状态,在一般的机器学习过程中,曲线总是会在某一局部会产生波动 。
关于平衡点这个概念,其实是有计算方法的,就是看曲线和y=x这条直线的相交的点就是BEP点的值,也就是“查准率=查全率”的点 。接下来的记录就记在下一节里面啦 。
敬请期待,啃瓜记录(二) 。
如果大家觉得感兴趣的话,可以关注一下我的公众号一颗程序树 。
【1.2 基本术语】!]()