【学习周报】SAM和CAT学习 _图像分割

上周组会提到了SAM，一个可提示的图像分割基础模型，从上的star数就可以看出这项工作的意义和价值非凡，在阅读了这篇论文后也开始思考如何与video 任务进行结合，在这个过程中又发现了五月初CVPR上的一篇文章“ ”，作者基于, BLIP/BLIP-2, ,, GiT等多个大模型，设计出一个处理图像字母的基础模型，旨在生成可控的图像字幕。
学习内容：学习时间：学习笔记：一、
论文地址：
demo链接：
引言
这项工作目标是开发一个可提示的图像分割的基础模型，在一个广泛的数据集上预训练，解决新数据分布上的一系列下游分割问题。
项目关键三部分：任务、模型和数据。
1.1 任务（Task）
在NLP和CV领域，model通过使用promt技术对数据集和任务执行zero shot或few shot实现迁移。受此启发作者提出了提示分割任务，其目的是在分割提示下返回一个有效的分割掩码。
1.2 模型（Model）
1.3 数据（Data） 1.3.1 数据引擎（Data ）
问题背景：为了实现对新数据分布的强泛化，需要在大量和不同的掩码集上训练SAM，而目前网络上缺少这样的数据集。
解决方案：与model-in-the-loop数据集标注共同开发模型，分为三个阶段：
-辅助手动：SAM协助注释器对掩码进行注释，类似于经典的交互式分割设置。semi-半自动：SAM可以通过提示可能的对象位置来为对象子集自动生成掩码，注释器专注于对其余对象的注释，帮助增加掩码的多样性。fully 完全自动：用一个规则的前景点网格提示SAM，平均每张图像产生100个高质量的mask 。1.3.2 数据集（）
最终数据集 “SA-1B” 包含来自1100万张许可和隐私保护图像的超过10亿个掩码。如下图所示：
二、

文章插图
论文地址：
代码地址：
引言
Image(CIC，可控图像字幕)的研究内容是使模型输出的图像字幕符合用户的需要。现有的CIC模型要么依赖人工注释，受数据集规模的限制影响了模型理解控制信号的能力；要么仅支持预定义的单个或多个控制信号，限制了模型组合不同的控制信号的灵活性以及引入新的控制维度。
因此作者提出了(CAT)，基于预训练基础模型的可控图像字幕框架。CAT将预训练的图像字幕与SAM和调整过的LLM结合在一起，图像和视觉控制由SAM处理生成用户所选区域的像素级mask，从而促使模型感知用户感兴趣的对象。
1.
CAT的整体框架如下图所示：
首先，将转换为mask ，然后预测由mask描述区域的图像字幕，为了使生成的字幕更符合用户想要关注的对象，在中应用了一个简单的 Chain-of-（视觉推理链）进行一步一步的推理。最后text 和raw 被送到Text 中根据用户期望生成字幕。
1.1
SAM能够根据视觉控制分割图像并且具有强大的zero-shot迁移能力，在可提示的预训练过程和SA-1B数据集（最大的分割数据集，在11M图像上具有个mask）的帮助下，SAM能够通过与用户交互提示（点、框）实现交互式分割，最后返回用户所需的分割掩码。进而就很容易根据原始图像和掩码生成所需的字幕。
1.2
作者使用BILP2作为，它能够在的帮助下直接结合使用预训练的image 和LLMs来弥合模态之间的差距，实现优秀的zero-shot 。
1.3 Text
作者引入作为API来生成更丰富和更容易受用户控制的字幕描述。除了，LLaMA，OPT-IML，BLOOM也可以作为API 。
1.4Chain-of-
受NLP中推理链CoT（Chain-of-）的启发，作者设计逐步生成文本来确保生成的描述符合用户关注的区域。
1.5to -
给定一个对象的分割掩码和用户查询，作者使用现成的视觉问答模型作为API使能通过提问来理解详细的视觉信息，具体来说，将生成的字幕包含在初始提示中，然后使用作为控制中心预测API的调用链。