8.2-无监督学习-线性降维( 七 )


今天这个宝可梦的data总共有6维,所以 是有6维 。你可以找出6个,找出6个 。现在我们来计算一下每个的ratio(每个除以6个的总和),得到的结果如图 。
可以从这个结果看出来说:第五个和第六个 的作用是比较小的,你用这两个来做的时候出来的是很小的,代表说:现在宝可梦的特性在第五个和第六个 上是没有太多的 。所以我们今天要分析宝可梦data的话,感觉只需要前面四个 就好了 。
我们实际来分析一下,你做PCA以后得到四个 就是这个样子,每一个 就是一个,每一个宝可梦是用6位的来描述 。我们来看每一个 做的事情是什么:如果我们看第一个 ,第一个 每一个都是正的,这个东西其实就代表了宝可梦的强度(如果你要产生一只宝可梦的时候,每一个宝可梦都是由这四个做,每一个宝 可梦可以想成是,这六个做 的结果,在选第一个 的时候,你给它的比较大,那这个宝可梦的六维都是强的,所以这第一个 就代表了这一只宝可梦的强度) 。第二个 它在防御力的地方是正值,在速度的地方是负值,也就是说这个防御力跟速度是成反比的,你给第二个 一个的时候,你会增加那只宝可梦的防御力但是会减低它的速度 。
我们把第一个和第二个画出来的话,你会发现是这个样子(图上有800个点,每一个点对应到一只宝可梦),但这样我么很难知道每一只宝可梦是什么 。
如果我们看第三个和第四个的话,会发现第三个 的特殊防御力是正的,攻击力和生命值是负的,说明是用生命值和攻击力换取特殊防御力的宝可梦 。最后一个是:它的HP是正的,攻击力和防御力是负的,也就是说:它是用攻击力和防御力来换取生命力的宝可梦 。

8.2-无监督学习-线性降维

文章插图
我们拿它来做手写数字辨识的话,我们可以把每一张数字都拆成乘以,加上另外一个乘以,每一张是一张image(28* 28的) 。我们现在来画前的话(PCA),你得到的结果是这样子的(如图所示),你用这些做 ,你就得到所有的digit(0-9),所以这些就叫做Eigen (这些其实都是 的)
如果我们做人脸辨识的话,得到的结果是这样子的 。找它们前30的pixel ,叫做Eigen-face 。你把这些脸做 以后就可以得到所有的脸 。但是这边跟我们预期的有些是不一样的,这是不是有bug啊 。因为我们PCA找出来的是,我们把很多 做 以后它会变成face 。但是现在我们找出来的不是,我们找出来的每一个图都几乎是完整的脸 。
为什么会这样呢?其实你仔细想PCA的特性,你会发现说,会得到这个结果是可能的 。因为在PCA里面,它可以是任何值(可以是正的,也可以是负的),所以当我们用pixel 组成一张image的时候,你可以把这个相加,也可以相减 。所以这会导致你找出的不见得是一个图的basic的东西 。
假设我要画一个9,那我可以先画一个8,把下面的圈圈减掉,然后把一杠加上去(你可以先画一个复杂的图,再把多于的减掉) 。这些其实不见得是笔画的东西,若你要得到类似笔画的东西,你要用Non-(NMF) 。在Non-里面,我们刚才说:PCA它可以看做是对 X做SVD,SVD是 的技术,它分解出来的两个的值可以是正的,也可以是负的 。那现在你要用NMF的话,我们会强迫所有的 都是正的 。是正的好处就是,现在一张image必须由叠加得到(你不能说:我先画一个很复杂的东西,再把一些东西去掉,得到一个digit) 。如果你用PCA的话,你的每一回都不见得是正的,会有一些负值,负值你是不知道要该怎么处理的 。
用NMF的话值都是正的,那些自然会形成一张image 。
在MNIST用NMF的话,你找出来的那些piexl 它就会清楚很多,你会发现你找出来的每个东西都是笔画了 。