数据挖掘:特征工程——特征提取与选择( 三 )


LDA原理解析
from sklearn.discriminant_analysis import LinearDiscriminantAnalysislda = LinearDiscriminantAnalysis(n_components=2)lda.fit(X,y)X_new = lda.transform(X)
3.3 PCA和LDA之间的区别
LDA与PCA都是常用的降维方法,二者的区别在于:
出发思想不同 。PCA主要是从特征的协方差角度,去找到比较好的投影方式,即选择样本点投影具有最大方差的方向( 在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好 。);而LDA则更多的是考虑了分类标签信息,寻求投影后不同类别之间数据点距离更大化以及同一类别数据点距离最小化,即选择分类性能最好的方向 。学习模式不同 。PCA属于无监督式学习,因此大多场景下只作为数据处理过程的一部分,需要与其他算法结合使用,例如将PCA与聚类、判别分析、回归分析等组合使用;LDA是一种监督式学习方法,本身除了可以降维外,还可以进行预测应用,因此既可以组合其他模型一起使用,也可以独立使用 。降维后可用维度数量不同 。LDA降维后最多可生成C-1维子空间(分类标签数-1),因此LDA与原始维度N数量无关,只有数据标签分类数量有关;而PCA最多有n维度可用,即最大可以选择全部可用维度 。3.3 奇异值分解(SVD)
奇异值分解(SVD)原理详解及推导
SVD和PCA区别和联系
3.4 因子分析
因子分析是通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,并据此对变量进行分类的一种统计分析方法 。由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维 。
因子分析的主要目的有以下三个:
(1)探索结构:在变量之间存在高度相关性的时候我们希望用较少的因子来概括其信息;
(2)简化数据:把原始变量转化为因子得分后,使用因子得分进行其他分析,比如聚类分析、回归分析等;
(3)综合评价:通过每个因子得分计算出综合得分,对分析对象进行综合评价 。
因子分析就是将原始变量转变为新的因子,这些因子之间的相关性较低,而因子内部的变量相关程度较高 。
中的因子分析问题:
(1)..:可以做因子分析,但是只能做因子分析,不能旋转 。不能旋转的因子分析对原始维度缺少一定的解释力,并且因子间可能存在一定的相关性,达不到因子分析的既定效果 。
(2).:既可做因子分析也能做因子的旋转,格式如下:(=None, =n, =‘’)
因子分析相关概念

数据挖掘:特征工程——特征提取与选择

文章插图
因子分析和PCA的区别
四、非线性降维方法
数据的各个属性间是强相关的
4.1 流形学习
流形是线性子空间的一种非线性推广,流形学习是一种非线性的维数约简方法
假设:高维数据位于或近似位于潜在的低维流行上
思想:保持高维数据与低维数据的某个“不变特征量”而找到低维特征表示
以不变特征量分为:
:测地距离
LLE:局部重构系数
【数据挖掘:特征工程——特征提取与选择】LE:数据领域关系
4.2 等距特征映射()
基本思想:通过保持高维数据的测地距离与低维数据的欧式距离的不变性来找到低维特征表示
测地距离:离得较近的点间的测地距离用欧氏距离代替;离得远的点间的测地距离用最短路径逼近
4.3 局部线性嵌入(LLE)
假设:采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表示