Representation Learning 表示学习 Part1( 八 )


这种方法的一大优点是它可以从不同的角度和尺度去理解和描述图像,而这对于许多计算机视觉的任务,如物体识别、场景理解等,都是非常重要的 。但是,这种方法也有一些局限性,比如它无法捕获到图像中的精细特征,以及视觉词之间的相对位置信息 。因此,尽管视觉词袋是一个强大的工具,但是在实际应用中,我们通常会结合其他的方法,如卷积神经网络(,简称CNNs)等,来进一步提升我们的模型的性能 。
这种方法的优点包括:
生成的表示对所需的变换具有不变性:也就是说,不管图像如何旋转、裁剪,只要包含同样的“词”,就会生成同样的“词袋” 。学习上下文推理技巧:因为需要从扰动后的图像预测原始图像的“词袋”,网络需要学习如何从图像的某部分推理出图像的其他部分 。推断缺失图像区域的词:如果图像的某部分丢失或被遮盖,我们也可以通过“词袋”预测出这部分可能包含哪些“词” 。
然而,这种方法也有一些缺点:
需要从另一个网络进行启动:这个网络无法从头开始学习,必须从另一个已经预训练好的网络启动 。对精细特征的学习能力有限:虽然“词袋”方法可以识别出图像中的大体特征,但对于更精细的特征,如颜色、纹理等的学习能力可能有限 。
另外,虽然"视觉词袋"是一种有效的特征提取方法,但是由于其丢失了空间信息,例如,特征之间的相对位置信息,这在许多应用中是非常重要的 。所以有一种改进方法叫做"空间词袋",即在保留词袋特征的同时,也保留了部分空间信息 。
Audio-
"音-视对应"的自监督学习任务是通过将音频与图像结合起来进行的 。其目标是根据图像和声音来判断它们是否是匹配的 。
让我们以一个简单的例子来说明:假设你有一个视频片段,视频中一个足球被踢出去,然后你听到了一个踢球的声音 。在这个例子中,图像和声音是匹配的,因为你在视觉上看到的足球被踢,和你在听觉上听到的声音是一致的 。
然而,如果我们把这段视频中的音频替换为一只猫的叫声,那么这个图像和声音就不再匹配,因为你看到的是一个足球被踢,但你听到的却是一只猫的叫声 。
在"音-视对应"的任务中,神经网络的目标就是学习这种对应关系 。在训练时,网络需要判断输入的图像和声音是否是匹配的 。如果匹配,网络应该输出"是";如果不匹配,网络应该输出"否" 。[外链图片转存中…(img--49)]
通过这种方式,网络可以学习如何从视觉和听觉的信号中提取有用的特征,并理解这两种信号之间的关联 。
这种方法的优点是我们可以同时得到两种模态的表示,而且不需要额外的数据增强方法 。
这种方法的缺点是并不是所有的图像都有对应的声音,也就是说,有一些"盲区"是网络无法学习到的 。此外,这种方法基于实例的特性使得相同类别或实例的视频成为负样本,这可能会对结果产生影响 。
【Representation Learning表示学习 Part1】