tf是什么意思 什么叫洗浴tf( 二 )


四、基础用户画像的怎么来?那基础的用户画像是怎么产生的呢?一般可分以下几种来源:
简单信息提取:基于实际基本事实而产生标签,如注册时间,渠道来源,用户所在地区等 。逻辑或公式计算:使用简单的逻辑或公式,对用户的行为进行统计而产生标签,如用户活跃天数,用户消费金额等 。算法学习:基于机器学习模型对用户的属性预测产生的标签,如性别,年龄,有车一族等 。

tf是什么意思 什么叫洗浴tf

文章插图
五、简单举例:通过模型产生基础用户画像国内某公司,在Kaggle举行过一个预测用户年龄和性别的比赛 。他们公布了一个用户数据集,数据集中包含了手机上安装的APP列表,手机型号和GPS信息等数据用于模型训练 。参赛选手通过这些数据建模,预测用户的性别和年龄 。准确度高的获胜 。
一个用户的手机里安装的APP,跟他的年龄和性别存在着一定的关联 。如:女性用户常用美柚,小红书等APP;而男性用户可能会装更多的游戏 。
如下图:
tf是什么意思 什么叫洗浴tf

文章插图
这个是有监督学习,橙色部分数据是特征,蓝色部分数据是label 。Label就是我们需要预测的目标 。通过大量的数据和算法调优,就可以训练出较为准确的模型 。
用训练好的模型,就可以给其他的未知性别和年龄的用户做评分预测 。这部分比较简单,就简单举例一下 。
六、物品标签物品画像,则是每个物品的一系列标签 。物品画像其中一个作用就是可以作为推荐模型中的物品特征 。另外一方面,在推荐系统中,物品画像是用户画像的基础:物品画像+用户行为=用户画像 。
举个简单的例子,一个用户点击了一系列的阿克苏苹果(物品画像:阿克苏,苹果,阿克苏苹果),这个用户就会被打上阿克苏,苹果和阿克苏苹果的偏好标签 。
tf是什么意思 什么叫洗浴tf

文章插图
物品画像的产生,不同的内容形式有不同的做法 。但大体可分为两类:
人工的方式给物品打标签;机器学习的方式给物品打标签 。如在音乐领域,一些音乐平台是通过一组音乐专家对平台的音乐进行打标签后,再对用户进行推荐 。这种人工的方式成本比较高,而且依赖于专家的专业程度 。另外,不同专家之间的标准可能不一样,需要统一标准或者拉平差异 。但是这也是没有办法的办法,有些场景下,物品标签匮乏,不得不依赖与人工打标的方式 。
大规模地给物品打标签,大部分还是靠机器学习的方式 。如何给物品打标签不是本文重点,这里略过 。
七、偏好画像的怎么计算得来?偏好画像如何产生?为了直观简单,直接以图文数据的方式来讲述 。假设一个短视频平台有4个用户使用,有4个视频需要被推荐 。
其中,4个视频分别为:
tf是什么意思 什么叫洗浴tf

文章插图
整理一下,我们可以得到以上4个视频的物品画像:
tf是什么意思 什么叫洗浴tf

文章插图
另外,为了简单一点,这里只考虑用户的观看行为,看完一次得分为1 。4个用户的数据分别如下,数字代表观看次数 。如下图中,用户A看了视频1一共2次 。
tf是什么意思 什么叫洗浴tf

文章插图
先说结论,一般地,用户画像的公式为:用户偏好程度 = 行为类型权重值 × 次数 × 时间衰减 × TFIDF值 。
行为类型权重值是人为给用户行为的赋值 。比如:看完=1,收藏=2,分享=3,购买=4等 。我们这里只考虑“看完”这个行为 。次数则是行为发生的次数 。时间衰减则是按一定的衰减系数,随着时间衰减 。一般用牛顿热力学公式来取衰减系数 。TFIDF值本来是文本处理领域的算法,用来提取一篇文章中的关键字 。这里用来衡量标签的对一个用户的关键程度 。下面我们来计算用户A的用户画像和偏好值 。
第一步:列一下行为类型权重值,因为我们只考虑观看行为,权重都为1:
第二步:统计用户A的行为次数 。用户A看了视频1两次,所以视频1带的标签“金融战争”和“做空”次数都记为2:
tf是什么意思 什么叫洗浴tf

文章插图
第三步:计算时间衰减,假设用户A看视频1是两天前的行为,看视频4是今天的行为 。衰减按照天来计算,衰减系数等于0.1556,热度计算公式为:热度=1×exp(-0.1556×天数) 。按照这个衰减系数,45天后热度衰减到0.5 。