Few-shot Learning 小样本学习在图像领域的研究现状

最近在做华为杯的竞赛,涉及小样本学习,总结一下相关的知识及论文
小样本学习(Few-shot )在图像领域的研究现状2. 小样本学习(Few-shot ) 2.2基于模型的小样本学习(Model Based) 2.3基于优化的小样本学习( Based)
1.
人类具有通过极少量样本识别一个新物体的能力,如小孩子只需要书中的个别图片,就可以认识什么是“苹果”,什么是“草莓” 。研究人员希望机器学习模型在学习了一定类别的大量数据后,对于下游任务中遇到的新类别,只需要少量的样本就能快速学习,实现“小样本学习” 。
传统的小样本学习考虑训练数据与测试数据均来自于同一个域 。如果下游任务中包含了未知域, 则传统小样本学习方法效果不理想 。这就是这次竞赛要解决的问题.
one-short: 待解决的问题只有少量的标注数据,先验知识很匮乏,迁移学习属于one-short 的一种
zero-short : 这个种情况下完全没有标注数据,聚类算法等无监督学习属于zero-short 的一种
小样本学习(Few-shot ) 是 元学习(Meta ) 在监督学习领域的应用 。Meta,又称为to learn,在 meta阶段将数据集分解为不同的 meta task,去学习类别变化的情况下模型的泛化能力,在 meta阶段,面对全新的类别,不需要变动已有的模型,就可以完成分类 。
形式化来说,few-shot 的训练集中包含了很多的类别,每个类别中有多个样本 。在训练阶段,会在训练集中随机抽取 C 个类别,每个类别 K 个样本(总共 CK 个数据),构建一个 meta-task,作为模型的支撑集( set)输入;再从这 C 个类中剩余的数据中抽取一批(batch)样本作为模型的预测对象(batch set) 。即要求模型从 C*K 个数据中学会如何区分这 C 个类别,这样的任务被称为 C-way K-shot 问题 。
训练过程中,每次训练()都会采样得到不同 meta-task,所以总体来看,训练包含了不同的类别组合,这种机制使得模型学会不同 meta-task 中的共性部分,比如如何提取重要特征及比较样本相似等,忘掉 meta-task 中 task 相关部分 。通过这种学习机制学到的模型,在面对新的未见过的 meta-task 时,也能较好地进行分类 。
Few-shot模型大致可分为三类:Mode Based,Based 和Based 。
1.1注意力机制
【Few-shot Learning小样本学习在图像领域的研究现状】视觉注意力机制是人类视觉所特有的大脑信号处理机制 。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息 。
这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性 。
图1形象化展示了人类在看到一副图像时是如何高效分配有限的注意力资源的,其中红色区域表明视觉系统更关注的目标,很明显对于图1所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置 。
小样本学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息 。
注意力机制的基本思想和实现原理
1.2 LSTM(Long short-term )
长短期记忆(Long short-term , LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题 。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现 。
LSTM结构(图右)和普通RNN的主要输入输出区别如下所示: