【学习周报】SAM和CAT学习( 二 )


【学习周报】SAM和CAT学习

文章插图
1.6to
为了使框架适应图像段落字幕任务,作者使用总结密集字幕和场景文本成一个段落 。具体来说,首先使用SAM分割图像中的所有对象,然后使用CAT管道为每个对象添加字幕从而生成密集字幕 。为了将场景文本合并到段落中,利用附加的OCR工具(例如)识别图像中存在的文本 。密集的字幕和场景信息随后被合并到预定义的提示模板中,最后使用该模板来引导将文本信息总结为一段精炼的字幕 。
【【学习周报】SAM和CAT学习】2.2.1
如图4所示,通过点击图像中的不同位置,CAT能够准确地识别和描述相应的对象 。
如图5所示,CAT的视觉控制也可以基于或box 。
2.2
如图6所示,CAT可以生成具有多种语言风格的字幕
2.3 -
如图7所示,CAT能够围绕选定的对象执行视觉问答 。
2.4Chain-of-
如图8所示,直接对图像进行推理往往会受到背景内容的影响,从而妨碍集中注意力在用户感兴趣的对象上 。而通过结合步进式的思考链,不仅生成的字幕更具有针对性,而且有利于获取与目标对象相关的更多细节信息 。
2.5in a
如图9所示,最终所得段落字幕包含了图片中的大多数对象以及文本信息,甚至会出现一些推理信息 。
三、总结
起初SAM作为分割模型出现时,就考虑到将SAM结合到video 任务中帮助模型更关注视频主体对象的特征和动作信息,而后CAT的出现直接在SAM基础上实现了图像字幕生成,而图像字幕与视频字幕的关联之一就在于,视频字幕任务往往会通过将视频划分为若干帧(可以是中心帧、关键帧)来代表整个视频,然后分别对每个视频帧进行处理获取静态信息,对不同帧之间的关系进行处理获取动态信息,最后组成视频字幕,基于上述分析可以将CAT应用在视频字幕任务中,关键在于对视频中的那些帧(图像)进行处理,以及如何推理帧与帧之间的关系 。