文章插图
4 PFMs for
在CV领域基本采用自监督学习(SSL)的方式来训练,如上图所示 。CV中的预训练任务被称为代理任务( task),代理任务的数据标签是根据数据的特定属性自动生成的,例如来自同一来源的图像块被标记为“正”,来自不同来源的图像块被标记为“负” 。然后,通过监督学习方法训练编码器网络以解决代理任务;由于浅层提取边缘、角度和纹理等细粒度细节,而较深的层捕获与任务相关的高层特征,如语义信息或图像内容,在代理任务中学习到的编码器可以迁移到下游的监督任务 。在此阶段,骨干网络的参数是固定的,只需要学习一个简单的分类器,如两层多层感知器(MLP) 。下游任务的训练过程通常被称为微调 。总之,在SSL预训练阶段学习到的表示可以在其他下游任务上重用,并取得不错结果 。
近年用于CV领域的PFMs汇总
4.1byTask
五花八门的 task设计,综述里写的比较琐碎,因此找了一些参考资料了解 。
4.2by Frame Order
序列数据(如视频)的学习总是涉及到时间步的帧处理,因此可以设置能够学习视觉时间表示的代理任务 。如(CPC)模型 。
CPC模型的原理介绍
4.3by
为GAN添加 以提升生成图像的质量 。如
4.4by
如ViT(视觉的)、BEiT(视觉的Bert)、MAE等等
4.5byBank4.6by
SSL倾向于使用两个编码器网络来进行不同的数据增强,然后通过最大化负对之间的距离或最小化正对之间的距离来预训练参数 。从编码器共享参数的角度,可将SSL分为软共享和硬共享两类 。
Soft . 软共享的两个编码器共享相似但不相同的参数,即fθ != f’ξ。
如MoCo、BYOL、PCL
Hard . 硬共享的两个编码器具有相同的结构和参数,即fθ = f’ξ
如、SwAV、SEER等
4.7by
将表征聚类到不同的簇中,并将这些簇标记为监督信号(伪标签),以预训练骨干网络的参数 。如、SwAV、PCL
读后感
CV方向的PFMs之前都没太了解过,读完这个部分后,感觉几个核心关键词就是自监督学习、对比学习、正负样本对的构造这样的,其他的就是一些细节和针对特定下游任务的改进,很多模型的思想与NLP中的PFMs相似,如ViT、等等 。以后如果工作中碰到相关问题再去调研和学习一番吧 。
5 PFMs for Graph
近年来的研究开始关注图自身属性、拓扑结构、社区等内在信息,以增强节点自身所承载特征的有效性 。
文章插图
近期用于图学习的PFMs如下表所示:
5.1by Graph
基于图信息补全的预训练(GIC)的本质动机是对输入图数据的部分信息进行掩码,并基于未掩码的图数据恢复掩码信息,从而对图嵌入进行预训练 。
如,,, PFM都用的SSL训练 。
5.2by Graph
图的一致性分析(GCA)主要探索图中两个元素分布的一致性 。具体来说,两个语义相似的元素的一致性应该显著强于两个语义不相关的元素,该特性可以用于图模型的预训练 。对于一致性评估可分为以下三个方面:
随机游走是获取图中节点的局部上下文信息的典型方法,通过设计多种游走策略,能捕捉上下文中不同方面的分布特征 。因此也被应用于和中 。
近期的方法如LINE直接考虑节点的k阶邻居分布(正例)和非相邻节点(负例)之间的关系,并以此来训练图模型;VGAE将输入图的邻接矩阵和节点的特征矩阵喂入编码器(图卷积网络)学习节点低维向量表示的均值和方差,然后用解码器(链路预测)生成图 。