【学习周报】SAM和CAT学习

上周组会提到了SAM,一个可提示的图像分割基础模型,从上的star数就可以看出这项工作的意义和价值非凡,在阅读了这篇论文后也开始思考如何与video 任务进行结合,在这个过程中又发现了五月初CVPR上的一篇文章“ ”,作者基于, BLIP/BLIP-2, ,, GiT等多个大模型,设计出一个处理图像字母的基础模型,旨在生成可控的图像字幕 。
学习内容:学习时间:学习笔记: 一、
论文地址:
demo链接:
引言
这项工作目标是开发一个可提示的图像分割的基础模型,在一个广泛的数据集上预训练,解决新数据分布上的一系列下游分割问题 。
项目关键三部分:任务、模型和数据 。
1.1 任务(Task)
在NLP和CV领域,model通过使用promt技术对数据集和任务执行zero shot或few shot实现迁移 。受此启发作者提出了提示分割任务,其目的是在分割提示下返回一个有效的分割掩码 。
1.2 模型(Model)
1.3 数据(Data) 1.3.1 数据引擎(Data )
问题背景:为了实现对新数据分布的强泛化,需要在大量和不同的掩码集上训练SAM,而目前网络上缺少这样的数据集 。
解决方案:与model-in-the-loop数据集标注共同开发模型,分为三个阶段:
-辅助手动:SAM协助注释器对掩码进行注释,类似于经典的交互式分割设置 。semi-半自动:SAM可以通过提示可能的对象位置来为对象子集自动生成掩码,注释器专注于对其余对象的注释,帮助增加掩码的多样性 。fully 完全自动:用一个规则的前景点网格提示SAM,平均每张图像产生100个高质量的mask 。1.3.2 数据集()
最终数据集 “SA-1B” 包含来自1100万张许可和隐私保护图像的超过10亿个掩码 。如下图所示:
二、

【学习周报】SAM和CAT学习

文章插图
论文地址:
代码地址:
引言
Image(CIC,可控图像字幕)的研究内容是使模型输出的图像字幕符合用户的需要 。现有的CIC模型要么依赖人工注释,受数据集规模的限制影响了模型理解控制信号的能力;要么仅支持预定义的单个或多个控制信号,限制了模型组合不同的控制信号的灵活性以及引入新的控制维度 。
因此作者提出了(CAT),基于预训练基础模型的可控图像字幕框架 。CAT将预训练的图像字幕与SAM和调整过的LLM结合在一起,图像和视觉控制由SAM处理生成用户所选区域的像素级mask,从而促使模型感知用户感兴趣的对象 。
1.
CAT的整体框架如下图所示:
首先,将 转换为mask ,然后预测由mask描述区域的图像字幕,为了使生成的字幕更符合用户想要关注的对象,在中应用了一个简单的 Chain-of-(视觉推理链)进行一步一步的推理 。最后text 和raw 被送到Text 中根据用户期望生成字幕 。
1.1
SAM能够根据视觉控制分割图像并且具有强大的zero-shot迁移能力,在可提示的预训练过程和SA-1B数据集(最大的分割数据集,在11M图像上具有个mask)的帮助下,SAM能够通过与用户交互提示(点、框)实现交互式分割,最后返回用户所需的分割掩码 。进而就很容易根据原始图像和掩码生成所需的字幕 。
1.2
作者使用BILP2作为,它能够在 的帮助下直接结合使用预训练的image 和LLMs来弥合模态之间的差距,实现优秀的zero-shot 。
1.3 Text
作者引入作为API来生成更丰富和更容易受用户控制的字幕描述 。除了,LLaMA,OPT-IML,BLOOM也可以作为API 。
1.4Chain-of-
受NLP中推理链CoT(Chain-of-)的启发,作者设计逐步生成文本来确保生成的描述符合用户关注的区域 。
1.5to -
给定一个对象的分割掩码和用户查询,作者使用现成的视觉问答模型作为API使能通过提问来理解详细的视觉信息,具体来说,将生成的字幕包含在初始提示中,然后使用作为控制中心预测API的调用链 。