文章插图
从图中可以很清楚的看到,首先,系统对每个用户都有一个用户 Profile 的建模,其中包括用户的基本信息,例如用户的年龄,性别等等;然后,系统会根据用户的 Profile 计算用户的相似度,可以看到用户 A 的 Profile 和用户 C 一样,那幺系统会认为用户 A 和 C 是相似用户,在推荐引擎中,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户一些物品,图中将用户 A 喜欢的物品 A 推荐给用户 C 。这种基于人口统计学的推荐机制的好处在于:(1)因为不使用当前用户对物品的喜好历史数据,所以对于新用户来讲没有“冷启动(Cold Start)”的问题 。(2)这个方法不依赖于物品本身的数据,所以这个方法在不同物品的领域都可以使用,它是领域独立的(domain-independent) 。那幺这个方法的缺点和问题是什幺呢?这种基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,比如图书,电影和音乐等领域,无法得到很好的推荐效果 。可能在一些电子商务的网站中,这个方法可以给出一些简单的推荐 。另外一个局限是,这个方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息,比如用户的年龄等,这些用户信息不是很好获取 。基于内容的推荐基于内容的推荐是在推荐引擎出现之初套用最为广泛的推荐机制,它的核心思想是根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品 。
文章插图
图中给出了基于内容推荐的一个典型的例子,电影推荐系统,首先我们需要对电影的元数据有一个建模,这里只简单的描述了一下电影的类型;然后通过电影的元数据发现电影间的相似度,因为类型都是“爱情,浪漫”电影 A 和 C 被认为是相似的电影(当然,只根据类型是不够的,要得到更好的推荐,我们还可以考虑电影的导演,演员等等);最后实现推荐,对于用户 A,他喜欢看电影 A,那幺系统就可以给他推荐类似的电影 C 。这种基于内容的推荐机制的好处在于它能很好的建模用户的口味,能提供更加精确的推荐 。但它也存在以下几个问题:(1)需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全面程度 。在现在的套用中我们可以观察到关键字和标籤(Tag)被认为是描述物品元数据的一种简单有效的方法 。(2)物品相似度的分析仅仅依赖于物品本身的特徵,这里没有考虑人对物品的态度 。(3)因为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的问题 。虽然这个方法有很多不足和问题,但他还是成功的套用在一些电影,音乐,图书的社交站点,有些站点还请专业的人员对物品进行基因编码,比如潘多拉,在一份报告中说道,在潘多拉的推荐引擎中,每首歌有超过 100 个元数据特徵,包括歌曲的风格,年份,演唱者等等 。基于协同过滤的推荐随着 Web2.0 的发展,Web 站点更加提倡用户参与和用户贡献,因此基于协同过滤的推荐机制因运而生 。它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐 。基于协同过滤的推荐可以分为三个子类:基于用户的推荐(User-based Recommendation),基于项目的推荐(Item-based Recommendation)和基于模型的推荐(Model-based Recommendation) 。下面我们一个一个详细的介绍着三种协同过滤的推荐机制 。混合的推荐机制在现行的 Web 站点上的推荐往往都不是单纯只採用了某一种推荐的机制和策略,他们往往是将多个方法混合在一起,从而达到更好的推荐效果 。关于如何组合各个推荐机制,这里讲几种比较流行的组合方法 。(1)加权的混合(Weighted Hybridization): 用线性公式(linear formula)将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集上反覆实验,从而达到最好的推荐效果 。(2)切换的混合(Switching Hybridization):前面也讲到,其实对于不同的情况(数据量,系统运行状况,用户和物品的数目等),推荐策略可能有很大的不同,那幺切换的混合方式,就是允许在不同的情况下,选择最为合适的推荐机制计算推荐 。(3)分区的混合(Mixed Hybridization):採用多种推荐机制,并将不同的推荐结果分不同的区显示给用户 。其实,Amazon,噹噹网等很多电子商务网站都是採用这样的方式,用户可以得到很全面的推荐,也更容易找到他们想要的东西 。(4)分层的混合(Meta-Level Hybridization): 採用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加準确的推荐 。技术使用2011年9月,浪淘金周杰正式提出“推荐引擎”和“推荐引擎广告”的概念,并宣布将在目前合作的媒体使用该技术,最大程度上提升广告的效率 。周杰预言,在推荐时代,无论用户在任何页面,他所需要的信息就在他面前 。无处不在推荐引擎技术已经套用在生活的方方面面 。1. 电子商务平台的站内推荐随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品 。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失 。为了解决这些问题,个性化推荐引擎应运而生:为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于:网站最热卖商品、客户所处城市、客户过去的购买行为和购买记录 。推荐引擎在网站是以站内推荐栏为最终体现形式,推荐栏展示的内容都是根据推荐引擎精準分析每个用户的兴趣偏好而智慧型推荐的 。不同用户、不同时间点,每位用户看到推荐栏内容都是不一样的,都是最符合其当前兴趣偏好和需求的 。图例如下,百分点推荐引擎在购物网站列表页、商品详情页、购物车页面构建智慧型商品推荐栏 。