根据假设,存在 (转)" /> 所以如果正交基v选。pca降维的理论知识( 四 )。" />

pca降维的理论知识( 四 )


现在假设存在M*N矩阵A,事实上,A矩阵将n维空间中的向量映射到k(k
如果要使他们两两正交,即
(转)" />
根据假设,存在
(转)" />
所以如果正交基v选择为A'A的特征向量的话,由于A'A是对称阵,v之间两两正交,那么

pca降维的理论知识

文章插图
(转)" />
这样就找到了正交基使其映射后还是正交基了,现在,将映射后的正交基单位化:
因为
(转)" />
所以有
(转)" />
所以取单位向量
(转)" />
由此可得
(转)" />
当k < i
则可得到
pca降维的理论知识

文章插图
(转)" />
继而可以得到A矩阵的奇异值分解:
(转)" />
(转)" />
现在可以来对A矩阵的映射过程进行分析了:如果在n维空间中找到一个(超)矩形,其边都落在A'A的特征向量的方向上,那么经过A变换后的形状仍然为(超)矩形!
vi为A'A的特征向量,称为A的右奇异向量,ui=Avi实际上为AA'的特征向量,称为A的左奇异向量 。下面利用SVD证明文章一开始的满秩分解:
pca降维的理论知识

文章插图
(转)" />
利用矩阵分块乘法展开得:
pca降维的理论知识

文章插图
(转)" />
可以看到第二项为0,有
pca降维的理论知识

文章插图
(转)" />

pca降维的理论知识

文章插图
(转)" />
pca降维的理论知识

文章插图
(转)" />
则A=XY即是A的满秩分解 。
整个SVD的推导过程就是这样,后面会介绍SVD在推荐系统中的具体应用,也就是复现Koren论文中的算法以及其推导过程 。
一下是我从别人博客转载过来的,分析的特别好
首先, 我们定义样本和特征, 假定有 m 个样本, 每个样本有 n 个特征, 可以如下表示:
pca降维的理论知识

文章插图
由简到难, 先看一下从2D 降维到1D的比较直观的表示:
pca降维的理论知识

文章插图
在上图中, 假设只有两个特征x1, x2, 然后需要降维到1D, 这个时候我们可以观察途中X所表示的样本点基本上分布在一条直线上, 那么就可以将所有的用(x1, x2)平面表示的坐标映射到图像画出的直线z上, 上图中的黑色铅笔线表示样本点映射的过程 。
映射到直线Z后, 如果只用直线Z表示样本的空间分布, 就可以用1个坐标表示每个样本了, 这样就将2D的特征降维到1D的特征 。同样的道理, 如果将3D的特征降维到2D, 就是将具有3D特征的样本从一个三维空间中映射到二维空间 。
pca降维的理论知识

文章插图
在上图中, 将所有的二维特征的样本点映射到了一维直线上, 这样, 从上图中可以看出在映射的过程中存在映射误差 。
在上图中, 用圆圈表示了样本映射后的坐标位置 。这些位置可以叫做近似位置, 以后还要用到这些位置计算映射误差 。
【pca降维的理论知识】因为在降维映射的过程中, 存在映射误差, 所有在对高维特征降维之前, 需要做特征归一化( ), 这个归一化操作包括: (1)(让所有的特征拥有相似的尺度, 要不然一个特征特别小, 一个特征特别大会影响降维的效果) (2) zero mean(零均值归一化) 。