Representation Learning 表示学习 Part1( 七 ) _机器学习

然而，这种方法也有一些缺点：
低级别线索很有效：颜色信息是一种非常直接的、低级别的线索，因此网络可能会依赖这些线索进行学习，而忽视了更高级别、更语义化的信息。在灰度帧上进行评估：由于输入帧是没有上色的，因此网络必须在灰度帧上进行评估，这就导致了一部分颜色信息的丢失。
"是否按正确顺序排列这组帧序列"是一种自监督学习的方法，其主要目标是判断一组视频帧是否按正确的时间顺序排列。如果我们能识别出视频中的动作和人体姿势，那么这个任务就变得相对容易。
具体来说，网络需要对每一帧进行特征提取，并对这些特征进行分析，从而判断帧序列是否按正确的顺序排列。这就相当于是在追踪动作和人体姿势在时间上的变化。
"是否按正确顺序排列这组帧序列"的优点包括：
没有训练-评估间隙：在训练和评估阶段，网络都是在进行序列判断，所以不存在训练-评估间隙。学习到识别人体姿势的能力：由于这个任务的成功解决需要识别出视频中的动作和人体姿势，所以网络在解决这个任务的过程中可能会学习到识别人体姿势的能力。
然而，这种方法也有一些缺点：
主要关注人体姿势：这个方法主要关注人体姿势，但是有时候仅凭人体姿势是无法确定帧序列的正确顺序的，因为不同的动作可能会有相同的人体姿势。可扩展性有待商榷：尽管这个方法在处理帧序列时效果不错，但是其是否可以扩展到处理时间序列网络（例如RNN等）尚待商榷，因为在处理时间序列网络时，任务可能会变得过于简单。
此外，这个方法还有一些扩展方向：
在N个帧中随机放置一个帧，然后找出这个帧。这就需要网络不仅能判断帧序列的正确性，还能找出不属于这个序列的帧。使用排序损失：网络应该对时间接近的帧生成相似的嵌入，而对时间远离的帧生成不同的嵌入。这就要求网络能够识别出帧之间的时间距离。Bag-of-Words (BoW)
"Bag-of-Words (BoW)"是一种常用于自然语言处理和计算机视觉的技术，其基本思想是将输入（如一段文字或一幅图像）分解为一组“词”，然后构建一个“词袋”来表示这个输入。
在自然语言处理中，“词”就是文本中的单词，在计算机视觉中，“词”可以是图像中的某个局部特征或者某种模式。
我们首先使用预训练的自监督卷积神经网络对图像进行特征提取。然后，将提取出的特征赋给视觉词汇，形成一种"视觉词袋" 。再接着，我们可以对图像进行一些随机的扰动（如旋转、裁剪等），并尝试从扰动后的图像中预测原始图像的“词袋” 。
尝试用一个比较通俗的例子来解释这个概念。假设我们有一张包含多种动物的图像，如猫、狗和兔子。
在使用视觉词袋（Bag-of-Words，简称BoW）的方法中，首先，我们需要一个预先训练好的神经网络模型，这个模型能够识别并提取出图像中的特征。比如，在我们这个例子中，神经网络模型可能会识别出猫的特征（如尾巴、耳朵和眼睛）、狗的特征（如鼻子、腿和尾巴）以及兔子的特征（如耳朵和脚）。
这些特征被视为**“视觉词”**，我们把它们全部放进一个"词袋"里，就像我们在做文本分析时，把一个文本中的所有单词都放进一个词袋里一样。因此，无论这些动物在图片中的具体位置如何，或者它们的姿态如何变化，只要这些特征在图片中，我们就可以在词袋中找到对应的"视觉词" 。
然后，我们对图像进行一些随机扰动，比如旋转、放大、缩小、裁剪等。接着，我们尝试从这个扰动后的图像中预测出原始图像的视觉词袋。这就需要神经网络模型有强大的学习和推理能力，能够从扰动的图像中，正确地识别出属于原图像的视觉词。