ASGNet论文和代码解读( 六 )


5.1 实验(一)在特征提取上,使用vit特征提取到的(b,512,60,60)特征按照下标为1的维度与的第二层512维、第三层1024维一起cat起来输入进网络 。
因为拼接的时候在前,所以timm原文中是提取0这个地方的特征[:,0] 。
在中:
PS:是中的一个函数调用方法
from einops import rearrange
具体使用方法:输入为图片
image = rearrange(image, 'h w c -> w h c') # 转置,对角线对称
输入为视频:
image = rearrange(images, 'f h w c -> (f h) w c') # 在h维度合并#(6, 300, 400, 3)#(1800, 400, 3)
我们先试着提取【:,0:196】,从 0 ? 195 一 共 196 个 \color{red}{从0-195一共196个} 从0?195一共196个
实验结果:
:train
val:
5.2 实验(二)在mlp head之前的一步,抛弃可学习的,最后提取到[:,1:197]【 1 ? 196 一 共 196 个 \color{red}{1- 196一共196个} 1?196一共196个】
5.3 残差形式串联、1、2、3的输入和输出
实验结果一直过拟合:
train
val
5.4 不做修改
train:
【ASGNet论文和代码解读】val: