【学习周报】SAM和CAT学习( 二 ) _图像分割

文章插图
1.6to
为了使框架适应图像段落字幕任务，作者使用总结密集字幕和场景文本成一个段落。具体来说，首先使用SAM分割图像中的所有对象，然后使用CAT管道为每个对象添加字幕从而生成密集字幕。为了将场景文本合并到段落中，利用附加的OCR工具（例如）识别图像中存在的文本。密集的字幕和场景信息随后被合并到预定义的提示模板中，最后使用该模板来引导将文本信息总结为一段精炼的字幕。
【【学习周报】SAM和CAT学习】2.2.1
如图4所示，通过点击图像中的不同位置，CAT能够准确地识别和描述相应的对象。
如图5所示，CAT的视觉控制也可以基于或box 。
2.2
如图6所示，CAT可以生成具有多种语言风格的字幕
2.3 -
如图7所示，CAT能够围绕选定的对象执行视觉问答。
2.4Chain-of-
如图8所示，直接对图像进行推理往往会受到背景内容的影响，从而妨碍集中注意力在用户感兴趣的对象上。而通过结合步进式的思考链，不仅生成的字幕更具有针对性，而且有利于获取与目标对象相关的更多细节信息。
2.5in a
如图9所示，最终所得段落字幕包含了图片中的大多数对象以及文本信息，甚至会出现一些推理信息。
三、总结
起初SAM作为分割模型出现时，就考虑到将SAM结合到video 任务中帮助模型更关注视频主体对象的特征和动作信息，而后CAT的出现直接在SAM基础上实现了图像字幕生成，而图像字幕与视频字幕的关联之一就在于，视频字幕任务往往会通过将视频划分为若干帧（可以是中心帧、关键帧）来代表整个视频，然后分别对每个视频帧进行处理获取静态信息，对不同帧之间的关系进行处理获取动态信息，最后组成视频字幕，基于上述分析可以将CAT应用在视频字幕任务中，关键在于对视频中的那些帧（图像）进行处理，以及如何推理帧与帧之间的关系。