二 连续苦情剧:机器学习入门笔记:线性模型( 四 )


这里主要介绍三种做法:
5.1 欠采样
欠采样()针对的是负类 , 也即移取训练集的部分反例 , 使得正类和负类的样例数目相当 。由于丢掉了大量反例 , 所以时间开销也大大减少 。但是带来一个问题就是 , 随机丢弃反例可能会丢失一些重要信息 。书中提到一种解决方法是利用集成学习机制 , 将反例划分为多个集合 , 用于训练不同的模型 , 从而使得对每个模型来说都进行了欠采样 , 但全局上并无丢失重要信息 。
5.2 过采样
过采样()针对的是正类 , 也即增加训练集的正例 , 使得正类和负类的样例数目相当 。过采样的时间开销会增大很多 , 因为需要引入很多正例 。注意!过采样 不能简单地通过重复正例来增加正例的比例 , 这样会引起严重的过拟合问题 。一种较为常见的做法是对已有正例进行插值来产生新的正例 。
5.3阙值移动
阈值移动(-)利用的是再缩放思想 。回想前面对数几率回归中 , 几率 y / (1 - y) 表示正例的相对可能性 , 我们默认以1作为阈值 , 其实是假设了样本的真实分布为正例反例各一半 。但这可能不是真相 , 假设我们有一个存在类别不平衡问题的训练集 , 正例数目为 m+, 反例数目为 m- , 可以重定义:
这就是再缩放() 。当几率大于 m+ / m- 时就预测为正例 。但必须注意 , 这种思想是 基于观测几率近似真实几率这一假设 的 , 现实任务中这一点未必成立 。
如果对软件测试有兴趣 , 想了解更多的测试知识 , 解决测试问题,以及入门指导 , 
帮你解决测试中遇到的困惑 , 我们这里有技术高手 。如果你正在找工作或者刚刚学校出来 , 
又或者已经工作但是经常觉得难点很多 , 觉得自己测试方面学的不够精想要继续学习的 , 
想转行怕学不会的 , 都可以加入我们 。
【二连续苦情剧:机器学习入门笔记:线性模型】群内可领取最新软件测试大厂面试资料和自动化、接口、框架搭建学习资料!