5.1 实验(一)在特征提取上,使用vit特征提取到的(b,512,60,60)特征按照下标为1的维度与的第二层512维、第三层1024维一起cat起来输入进网络 。
因为拼接的时候在前,所以timm原文中是提取0这个地方的特征[:,0] 。
在中:
PS:是中的一个函数调用方法
from einops import rearrange
具体使用方法:输入为图片
image = rearrange(image, 'h w c -> w h c') # 转置,对角线对称
输入为视频:
image = rearrange(images, 'f h w c -> (f h) w c') # 在h维度合并#(6, 300, 400, 3)#(1800, 400, 3)
我们先试着提取【:,0:196】,从 0 ? 195 一 共 196 个 \color{red}{从0-195一共196个} 从0?195一共196个
实验结果:
:train
val:
5.2 实验(二)在mlp head之前的一步,抛弃可学习的,最后提取到[:,1:197]【 1 ? 196 一 共 196 个 \color{red}{1- 196一共196个} 1?196一共196个】
5.3 残差形式串联、1、2、3的输入和输出
实验结果一直过拟合:
train
val
5.4 不做修改
train:
【ASGNet论文和代码解读】val:
- 2022年全球市场电视空白频谱总体规模、主要生产商、主要地区、产品和应用细分研究
- 硫酸新霉素和庆大霉素的区别?
- 鸿蒙开源第三方组件——日期和时间处理组件JodaTime-ohos
- Drizzle、MariaDB和Percona Server_超越MySQL:三
- 区块链,是否是解决互联网信用和诚信问题的良药
- 土鸡蛋和柴鸡蛋有什么不同吗?
- ibm websphere_集成IBM API Connect和WebSpher
- STA和MTA 之 COM和套间
- 金煌芒和贵妃芒的区别是什么
- 咸丰草和鬼针草的区别有哪些