8.2-无监督学习-线性降维( 九 )


那我们就用 来实际做一下 ,我们假设 的数目为2 。那A到E都会对应到二维的,那每一个角色都会对应到一个(属性) 。所以我们把它在两个维度里面比较大的维度挑出来的话,你就会发现说:A,B是萌同一种属性,C,D,E是萌同一种属性,1,2有同样的属性,3,4有同样的属性 。你没有办法说每一个属性分别都代表着什么(不知道那个维度代表着天然呆或者傲娇) 。
你需要先找出这些 去分析它的结果,你就可以知道说(因为我们事先已经知道姐寺跟小唯是有天然呆属性)第一个维度代表天然呆的属性,第二个维度是傲娇的属性 。有了这些data以后,你就可以预测你的 value 。
如果我们已经知道r3r3,rArA,我们知道一个会购买公仔的数量其实是动漫角色背后的 跟人背后的 做inner 的结果 。那我们把r3r3跟rArA做inner 之后,你就可以预测说这个人会买多少公仔 。
刚才那个model可以做的更精致一点,我们刚才说:A背后的r^ArA跟1背后的 得到的结果就是table上面的数值 。但是事实上可能还会有别的因素会操控它的数值,所以更精确的写法是:rArA跟r^1r1的inner 加上某一个跟A有关的,再加上跟1有关的scale b_1b1其实才等于5 。b_AbA代表说:A本身有多喜欢买工仔,b_1b1代表说:这个角色它本身会有多想让别人购买(这件事情跟属性是无关的)
所以改一下的式子,改为riri跟rjrj的inner 加上b_ibi,b_jbj,然后你希望这个值跟n_{ij}nij越接近越好,用 来解 。(你也可以在loss 后面加上)
MF主题分析的应用

有很多的应用,可以应用到topic 上面 。如果把刚才讲的 的技术用到topic 上面就叫做(LSA) 。就是把刚才的动漫人物换成文章,把刚才的人换成词汇 。table里面的值就是term ,把这个term 乘上一个代表说这个term本身有多重要 。
怎样一个term重不重要呢?常用的方式是:(计算每一个词汇在整个paper有多少比率的涵盖这个词汇,假如说,每个词汇,每个都有,那它的就很小,代表着这个词汇的重要性是低的,假设某个词汇只有某一篇有,那它的就很大,代表这个词汇的重要性是高的 。)
在这个task里面,如果你今天把这个做分解的话,你就会找到每一个背后那个 ,那这边的 是什么呢?可能指的是topic(主题),这个topic有多少是跟财经有关的,有多少是跟政治有关的 。跟有比较多的“投资,股票”这样的词汇,那跟就有比较高的可能背后的 是比较偏向“财经”的
topic 的方法多如牛毛,基本的精神是差不多的(有很多各种各样的变化) 。常见的是(PLSA)和(LDA) 。这跟之前在 讲的LDA是完全不一样的东西
3.5 未引入的其他相关方法
这些是一些给大家参考,这边是跟PCA比较有关系的 。
的方法多如牛毛,比如说MDS,MDS的特别是:它不需要把每一个data都表示成 ,它要知道 跟 之间的,知道这个,你就可以做。一般教科书举得例子会说:我现在一堆城市,你不知道咋样把城市描述成,但你知道城市跟城市之间的距离(每一笔data之间的距离),那你就可以画在二维的平面上 。其实MDS跟PCA是有一些关系的,如果你用某些特定的来衡量两个data point之间的距离的话,你做MDS就等于做PCA 。其实PCA有个特性是:它保留了原来在高维空间中的距离(在高维空间的距离是远的,那么在低维空间中的距离也是远的,在高维空间的距离是近的,那么在低维空间中的距离也是近的)
【8.2-无监督学习-线性降维】PCA有几率的版本,叫做 PCA 。PCA有非线性的版本,叫做 PCA 。CCA是说:你有两种不同的,这时候你想要用CCA 。假如说你要做语音辨识,两个(一个是声音讯号,有那个人嘴巴的image(可以看到这个人的唇形,可以读他的唇语))把这两种不同的都做 ,那这个就是CCA 。