文章目录多目标 注意力机制 loss 特征交互 用户兴趣建模label 分类模型 ltvModel 召回
本文主要收集及分类一些比较重要的论文 。蒸馏
参考文档:#_66
《 thein a》 2015-
最原始的蒸馏论文 。
一文搞懂知识蒸馏
《Deep》 2017
此方法不再是学生网络学习教师网络 , 本篇论文打破这种预先定义好的“强弱关系” , 提出了一种深度相互学习策略 , 即一组学生网络在整个训练过程中相互学习 。
《via》 2019
在较大的和很小的之间加入容量介于二者之间的 , 先蒸馏TA , TA再蒸馏 。
《:Hints for thin deep nets》 2015
本篇论文侧重蒸馏 。为什么要蒸馏呢?相当于“答案” , 相当于“思路” 。学习“思路”比学习“答案”容易 。简单来说就是剖开和的某一层 , 而让二者这一层的输出间的mse最小 。所有之前的工作都是专注于压缩网络到更浅更宽的网络 , 没有充分利用深度 。论文通过利用深度解决网络压缩的问题 , 提出新方法训练thin and deep网络 。注意:由于这一层 map的shape不一定一样 , 在蒸馏过程中这一层后会接一个wr来调整 , 蒸馏结束拆掉这一层 。
多目标
参考:
mmoe ESMM ple AITM: theamongMulti-stepwith Multi-taskin注意力机制 《 is all you need》 谷歌2017
文章插图
是为了进一步区分特征的不同重要性 , 为其赋予不同的注意力权值强调不同特征的重要性 。
《》2017(MHA)
MHA+残差网络+Norm
的内部 , 在本质上是一个 - 的结构 , 即 编码器-解码器 。
中抛弃了传统的 CNN 和 RNN , 整个网络结构完全由机制组成 , 并且采用了 6 层 - 结构 。
loss 《 Loss For Multi-Label 》 2020达摩院
1、一种非对称损失 , 它在正负样本上有不同的操作 。主要针对正负样本不平衡 , 对loss的影响应该不同 。
2、提出硬阈值 , 硬阈值对正负样本极度不平衡的时候有效 。硬阈值从梯度的角度去分析 , 能够摒弃掉label标错的负样本 。
focal loss --困难样本 equal loss --long tail 《DeepforDepth 》 --2018 提高auc 特征交互 DCN --2017斯坦福大学&谷歌
Wide&Deep模型的进化 , Deep&Cross模型 , 简称DCN 。利用Cross网络代替原来的Wide部分 。
PNN 2016 上交
使用乘积层 Layer , 不同特征的不再是简单的 , 而是用操作进行两两交互 , 更有针对性的获取特征之间的交叉信息 。
FM 用户兴趣建模 《Multi-withforat Tmall》 MIND 2019 Tmall 《SIM》《 deepwalk for》2016 《-Deepfor》2016 《-scalefor E-in 》2018 阿里
嵌入的方法主要来源于 。
文章插图
推荐面临三大技术挑战:
?可扩展性:尽管许多现有的推荐方法在小规模数据集(即数百万用户和项目)上运行良好 , 但在更大规模的数据集(即10亿用户和20亿项目)上失败 。
?稀疏性:由于用户往往只与少量项目交互 , 因此很难训练出准确的推荐模型 , 尤其是对于交互次数很少的用户或项目 。它通常被称为“稀疏性”问题 。
?冷启动:每小时有数百万个新项目被连续上传 。这些项目没有用户行为 。处理这些项目或预测用户对这些项目的偏好是很困难的 , 这就是所谓的“冷启动”问题 。
【论文阅读---推荐、广告、增长】
- php论文答辩一般会问什么问题,一般论文答辩可以看稿子吗
- 读论文 Early Exit or Not: Resource
- android 驱动学些入门-------Device Tree 第一篇
- 【论文阅读】CVPR2022
- 三 从零开始做聊天机器人 ---- 整句搜索型机器人(二)
- Towards Real-Time Multi
- 【ClickHouse内核】源码阅读策略
- C语言----基于旋转编码器按键的菜单结构
- 《云计算框架与应用课程论文》
- 8年前的一次偶遇