互联网大厂面试官:推荐系统最经典的 排序模型 有哪些?你了解多少?( 三 )


所能预估排序的规模终究有限,所以才有了粗排这么一个环节 。
【粗排将几千个物品继续用漏斗筛选几百个出来,这样速度要快才行,否则精排算不了】
常见的粗排模型有DSSM等 。
由于粗排是给精排服务的,因此这里还涉及到粗精排目标一致性的问题,
常用的做法就是粗精排特征对齐 。
近年来,工业界在粗排环节也有很多尝试,比如引入知识蒸馏的思想,
把精排-粗排构建一个-网络,即用精排模型指导粗排模型的训练 。
三、精排
目前无论是学术界还是工业界,大部分的精力都集中于精排这个环节 。
所以面试官才要问你这个问题:推荐系统最经典的 排序模型 有哪些?你了解多少?
因此你有必要好好透彻地了解一波,这些排序模型,这是作为工作之后要调参尝试的基础能力 。
主要有几个方面的因素:
1.精排环节是模型层出的环节,学术界以论文为导向,自然把精力都放在了模型上面,不然着实没法水论文啊 。
2.这一波深度学习浪潮席卷了CV、NLP、推荐,
虽然是由于数据、算力和算法三个因素共同助推了深度学习的浪潮,
首先数据量自不用说,每年都在以指数的速度在增长,硬件算力优化历来都是小众,很多人没兴趣甚至也没能力去搞 。
加之工业界的成果如果想共享或者有影响力,最好的方式依然是发论文,而发论文嘛又回到了第一条里 。
本次推荐系统系列博客也主要集中在精排阶段的常用模型上 。

互联网大厂面试官:推荐系统最经典的 排序模型 有哪些?你了解多少?

文章插图
【之前我讲的24篇主要是小红书的推荐系统工业界实现】
精排阶段的目标就是排出用户可能最喜欢的item列表,
用的比较多的排序方式还是point-wise,因此本质上就是个ctr预估模型,
因此精排模型的演进实际上就是CTR模型的演进历程 。
下面用一张图来简单的总结下工业界常用的CTR模型的演进历史,
能够看出基本都围绕着如何更好的从样本中学出有用的信息,
因此特征工程的重要性无与伦比,
从统计机器学习时代的LR,进化到+MLP的范式,
也都是在围绕着如何学到更加有用的高阶交叉特征信息 。
在统计机器学习时代,LR在工业界占据统治地位,
LR有着诸多的优点:简单可解释性强,易于分布式并行训练 。
但LR只是个线性模型,没办法学到学到一些高阶交叉信息,
因此如果想学到更加细粒度的信息,需要大量的特征工程,既人工做二阶交叉特征,
但这样的话,时间复杂度又回飙升,比如N 方个特征,两辆交叉复杂度就到了 O(N^2)
所以大佬提出了FM模型用于学习二阶交叉特征,
则利用gbdt进行特征组合然后输入到LR里,提出了GBDT+LR的模型 。
待到深度学习来临后,+MLP的范式成为主流,
详细的后面在单独介绍每个模型时再一一详述,这里不再赘述,
大家看看上面的图就好(为了这张图特意去下了个xmind,哈哈) 。
四、混排==重排【前面24篇文章的叫法】
混排,顾名思义,就是多种不同类型的内容混合排序,
在信息流推荐中,比如手百的信息流内容类型可能会包括:资讯,视频,小视频,图文,动态等等内容 。
在用户请求时,为了多样性的考虑,这些内容以列表页的形式展现给用户,
那么必然涉及到排序,所以有了混排,
最终的目的还是为了提高用户的点击率 。
此外混排还会涉及到一些策略,比如冷启用户的曝光处理,以及一些强制曝光策略等 。