Few-shot Learning 小样本学习在图像领域的研究现状( 二 )


LSTM基本思想和实现原理
LSTM的内部结构,通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够仅有一种记忆叠加方式 。对很多需要“长期记忆”的任务来说,尤其好用 。
但也因为引入了很多内容,导致参数变多,也使得训练难度加大了很多 。因此很多时候我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型 。
2. 小样本学习(Few-shot ) 2.1基于度量的小样本学习( Based)(主流方法)
Based 方法通过度量 batch 集中的样本和集中样本的距离,借助最近邻的思想完成分类 。
2.1.1孪生网络( ) 孪生 是指网络结构中的和
这两个网络的结构一般是相同的,并且参数是共享的 即参数是一致的 。
还有一种网络叫伪孪生网络 直观理解就是左右两边的网络结构是不同的 。在图中的网络中 左右两个网络的作用是用于提取输入图片的特征 。特征提取器
比如在人脸领域,输入两个人的人脸图片信息,两个网络分别提取这两个人脸图片中不同部分 。
通过使用两个网络 提取出来了两个图片的特征 接下来计算特征之间的差距 。之后返回网络的输出结果 :这两张图片是否属于同一人 。
关于这个网络结构的损失函数 也可理解为 计算的地方设定为:
G w ( P T ) = G w ( X 1,X 2 ) Gw(PT) = Gw(X1,X2) Gw(PT)=Gw(X1,X2)
指两个特征上属于同一个人的误差
G w ( P F ) = G w ( X 1,X 2 ) Gw(PF) = Gw(X1,X2) Gw(PF)=Gw(X1,X2)
指两个特征上不属于同一个人的误差
损失函数
L o s s = G w ( P T ) ? G w ( P F ) + α Loss = Gw(PT) - Gw(PF) + α Loss=Gw(PT)?Gw(PF)+α
我们要使损失函数最小,相当于使 G w ( P T ) Gw(PT) Gw(PT) 尽可能的小 可以理解为 这个网络 识别两张图片属于 一个人 能力 尽可能的厉害/准确

Few-shot Learning  小样本学习在图像领域的研究现状

文章插图
相当于使 G w ( P F ) Gw(PF) Gw(PF)尽可能的大(因为有负号) 可以理解为 这个网络 区分/判别两张图片不属于 一个人 能力 尽可能的厉害/准确
其中 参数 α α α 是为了避免损失函数的值为0 而设定的
因为在损失函数为0 的时候 优化过程中 求导求梯度会出现问题 。
总的来说,孪生网络( )通过有监督的方式训练孪生网络来学习,然后重用网络所提取的特征进行 one/few-shot 学习 。
该孪生卷积网络可以:
学习到一些通用的图片特征,可以预测数据量非常少的新分类在数据源上进行随机采样生成成对的训练数据,然后使用标准的优化算法进行训练该方法不依赖特定领域知识,只依赖深度学习
具体的网络是一个双路的神经网络,训练时,通过组合的方式构造不同的成对样本,输入网络进行训练,在最上层通过样本对的距离判断他们是否属于同一个类,并产生对应的概率分布 。在预测阶段,孪生网络处理测试样本和支撑集之间每一个样本对,最终预测结果为支撑集上概率最高的类别 。
L层,每层n个单位
h 1 , 1 h_{1,1} h1,1? 表示第一个孪生的层 l l l
h 2 , 1 h_{2,1} h2,1? 表示第二个孪生的层 l l l
前两层使用ReLU激活函数,其余的使用单元 。卷积层的尺寸可变,stide固定为1, 。为了方便优化滤波器的数量的是16的倍数,然后使用ReLU激活函数,然后选择性的使用max-,为2.
【1】Koch, ,Zemel, and. “for one-shot image .” ICML Deep. Vol. 2. 2015.
代码地址
代码作者对论文的解析
论文解读
2.1.2匹配网络(Match )