二 连续苦情剧:机器学习入门笔记:线性模型( 三 )


有了预测函数之后 , 我们需要关心的就是怎样求取模型参数了 。这里介绍一种与最小二乘法异曲同工的办法 , 叫做极大似然法() 。
前面说到可以把 y 理解为一个样本是正例的概率 , 把 1 - y 理解为一个样本是反例的概率 。而所谓极大似然 , 就是最大化预测事件发生的概率 , 也即最大化所有样本的预测概率之积 。令p(c = 1|x)和p(c = 0|x)分别表示 y 和 1 - y 。
简单变换一下公式 , 可以得到:
但是!由于预测概率都是小于1的 , 如果直接对所有样本的预测概率求积 , 所得的数会非常非常小 , 当样例数较多时 , 会超出精度限制 。所以 , 一般来说会对概率取对数 , 得到对数似然(log-) , 此时求所有样本的预测概率之积就变成了求所有样本的对数似然之和 。对率回归模型的目标就是最大化对数似然 , 对应的似然函数是:
可以理解为若标记为正例 , 则加上预测为正例的概率 , 否则加上预测为反例的概率 。其中 β = (w;b) 。
对该式求导 , 令导数为0可以求出参数的最优解 。特别地 , 我们会发现似然函数的导数和损失函数是等价的 , 所以说最大似然解等价于最小二乘解 。最大化似然函数等价于最小化损失函数:
解析:

二  连续苦情剧:机器学习入门笔记:线性模型

文章插图
四.线性判别分析(LDA)
线性判别分析(, 简称LDA)是一种经典的线性学习方法 , 在二分类问题上因为最早由(, 1936] 提出 , 亦称“ 判别分析”
LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时 , 将其投影到同样的这条直线上 , 再根据投影点的位置来确定新样本的类别.图3.3给出了一个二维示意图.
如何实现呢?
其中 , 分子的 μi 表示第 i 类样例的均值向量(即表示为向量形式后对各维求均值所得的向量) 。分子表示的是两类样例的均值向量投影点(也即类中心)之差的 ?2 范数的平方 , 这个值越大越好 。分母中的 Σi 表示第 i 类样例的协方差矩阵 。分母表示两类样例投影后的协方差之和 , 这个值越小越好 。
定义类内散度矩阵(-class):
定义类间散度矩阵(-class):
这两个矩阵的规模都是 d×d  , 其中 d 是样例的维度(属性数目) 。于是可以重写目标函数为:
也即 Sb 和 Sw的广义瑞利熵() 。
可以注意到 , 分子和分母中 w 都是二次项 , 因此 , 最优解与 w 的大小无关 , 只与方向有关 。令分母为1 , 用拉格朗日乘子法把约束转换为方程 , 再稍加变换我们便可以得出:
但一般不直接对矩阵 Sw 求逆 , 而是采用奇异值分解的方式 。
从而分类问题转化为最优化求解w的问题 , 当求解出w后 , 对新的样本进行分类时 , 只需将该样本点投影到这条直线上 , 根据与各个类别的中心值进行比较 , 从而判定出新样本与哪个类别距离最近 。
求解w的方法如下所示 , 使用的方法为λ乘子 。
五.类别不平衡问题
**类别不平衡(class-) **问题非常普遍 , 比方说推荐系统中用户购买的商品(通常视作正例)和用户未购买的商品(通常视作反例)比例是极为悬殊的 。如果直接用类别不平衡问题很严重的数据集进行训练 , 所得模型会严重偏向所占比例较大的类别 。本节默认正类样例较少 , 负类样例较多 。