Few-shot Learning 小样本学习在图像领域的研究现状( 四 )


c k = 1 ∣ S k ∣ ∑ ( x i , y i ) ∈ S k f ? ( x i ) c_{k}=\frac{1}{|S_{k}|}\sum_{(x_{i},y_{i})\in S_{k}}f_{\phi }(x_{i}) ck?=∣Sk?∣1?∑(xi?,yi?)∈Sk??f??(xi?)
原型网络的原理较为简单,但是有一点小问题就是,对于两个或多个样本的相似度,用距离较近来度量是否合理 。对于某一些数据集来说可能有用,但是对于一般的图片,效果可能就不那么好了 。因此,两个样本或者图片间相似性的度量方法是下一步可以改进的地方 。
for Few-shot 论文详解1
for Few-shot 论文详解2
for Few-shot 论文详解3
for Few-shot 论文详解4
for Few-shot 文章代码
【3】Snell, Jake, Kevin , andZemel. “for few-shot .”in. 2017.
2.1.4关系网络( )
关系网络其实就是引入注意力机制,通过对(特征映射)后的特征计算注意力,利用注意力得分进行分析 。因此
前面几个网络结构在最终的距离度量上都使用了固定的度量方式,如,欧式距离等,这种模型结构下所有的学习过程都发生在样本的阶段 。
而认为度量方式也是网络中非常重要的一环,需要对其进行建模,所以该网络不满足单一且固定的距离度量方式,而是训练一个网络来学习(例如 CNN)距离的度量方式,在 loss 方面也有所改变,考虑到更多的关注score,更像一种回归,而非 0/1 分类,所以使用了 MSE 取代了 cross- 。
K-shot:对每个训练类的所有样本的模块输出进行逐元素求和,这个合并的类级特征映射与上面的查询图像特征映射相结合 。
:使用均方误差MSE作为损失函数,将关系分数rij回归到 truth:匹配的相似性为1,不匹配的相似性为0 。
Zero-shot:每个训练类中使用语义嵌入向量代替one shot数据集作为支持集 。模型结构中除了用于查询集的嵌入模块f1,还使用了第二个异构模块f2用于处理语义嵌入向量 。
利用4个卷积块实现 。每个卷积块包含64个大小为33,使用batch 和ReLU激活函数 。前两个block包含22的max 操作,后两个block不需要 。目的是需要在关系模块中为进一步的卷积层提供输出特征映射 。
模块由两个卷积块和两个全连接层组成,每一个卷积块是64个大小为33,使用batch,ReLU激活函数,22的max。最后一个max 层输出大小在中为64,在中为6433=576 。这两个全连接层分别是8和1 。所有全连接层的激活函数为ReLU,除了最后一层全连接层是(目的是生成合理的关系分数范围) 。
Few-shot:Adam学习率设置为10-3,每100,000个情景后折半,端到端训练,没有额外的数据集 。
训练时的数据是,通过对原始数据旋转90°,180°,270°来增加新类,选择1200类并通过旋转作为训练集,423类通过旋转作为测试集 。并将大小为28*28 。
to :for few-shot .论文详解
to :for few-shot .开源代码
【4】Sung, Flood, et al. “ to :for few-shot .”of the IEEEonand. 2018.
2.2基于模型的小样本学习(Model Based)
Model Based 方法旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入 x 和预测值 P 的映射函数
2.2.1基于记忆的方法
通过在神经网络上添加来实现 。等提出在网络的输入把上一次训练的y label也作为输入,并且添加了 存储上一次训练x的输入,这使得下一次输入后进行反向传播时,可以让y label和x建立联系,使得之后的x能够通过外部记忆获取相关图像进行比对来实现更好的预测 。
One-shotwith -论文详解
【5] , Adam, , , , , , Daan, and , . Meta- with -. Inof The 33rdon, pp. 1842–1850, 2016.
Meta-论文笔记:Meta
【6】 T, Yu H. Meta . arXivarXiv:1703.00837, 2017.
以Meta- with -这篇文章为例,我们看一下他的网络结构: