视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾( 二 )


高俊博士指出,未来研究者们可以探究如何将单个类别的物体生成扩展到多类别、通用物体生成;从物体生成扩展到场景生成;从静态内容生成扩展到动态内容生成 。
通用视觉模型初探
王鑫龙 | 智源研究院研究员

视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

文章插图
对通用视觉智能的探索可以分为两个部分:
(1)视觉表征 。抽象出视觉信号,并学习通用表征 。
(2)视觉通才模型 。训练可以解决开放场景下各类任务(例如,分类、检测、分割)的视觉通才模型 。
「EVA」 模型是目前具有级别参数的最好的预训练模型,它将 CLIP 与 MIM 方法相结合,遮盖输入图像的一部分,并重建被遮盖部分的 CLIP 特征,通过 CLIP 特征提供高级别语义,通过掩码建模提供结构空间信息 。
王鑫龙博士指出,扩展模型规模的目的在于使其具有以下三种能力:在经典任务(例如,、、COCO)上取得新的性能突破;解决以往难以解决的任务(例如,LVIS长尾识别);带来新的能力(例如,帮助 CLIP 更好地训练) 。
「EVA-CLIP」使用 EVA 预训练模型初始化图像编码器,通过 LAMB 优化器使模型训练收敛更快,并通过 FLIP 提升了训练效率 。EVA-CLIP 5B 在 -1K 上取得了 82% 的零样本分类精度,是当前最强的开源CLIP模型 。
「」旨在将分类、检测、分割、关键点检测、底层视觉等任务统一为输入图像输出图像的任务,在无需模型微调的情况下自动完成任务,并展现出新的能力,探索了一种通用的视觉任务借口,具备上下文视觉学习能力 。该模型的架构为 ViT,通过回归损失监督训练 。
「」基于实现了「分割一切」的能力,是对通用分割模型的探索 。王鑫龙博士团队将语义分割、实例分割等各种分割数据汇聚起来,统一成小样本提示的上下文视觉训练样例 。
王鑫龙博士指出,上述工作背后的思想是「统一的学习方法+可扩展的数据+大模型」 。其中,最困难的是构建可扩展的数据 。
「Emu」是一个能接收多模态输入、产生多模态输出的大模型,进行统一的多模态上下文学习 。王鑫龙博士团队将图像、文本、交错图文、交错视频文本等数据统一成相同形式,进行多模态上下文学习,完成感知、推理、生成等任务 。
Image, Video, and 3Dwith
Kreis |高级研究科学家
Huan Ling |研究科学家
扩散模型是一类基于评分的生成模型,近年来取得了令人瞩目的效果 。目前,已有研究人员将扩散模型用于「文-图」、「文-3D」、「文-视频」生成,「3D 形状合成」、「3D 场景生成」等任务 。
「eDiff-I」使用集成的专家去噪器实现「文-图」生成扩散模型,它利用 T5 和 CLIP 作为文本编码器、利用 CLIP 作为图像编码器,并且在基础扩散模型之上添加了 2 个超分辨率模型,包含 9.1B 的参数 。该模型在不同的合成阶段使用专家去噪器 。
「」实现了高分辨率的「文-3D」内容生成 。该模型使用 NGP 根据 2D 扩散模型实现了由粗到精的 3D 形状蒸馏 。在第一个阶段,模型首先低分辨率先验优化神经场表征,从而得到粗模型 。在第二阶段,模型进一步可微地根据强度和颜色场提取纹理 3D mesh,使用高分辨率潜扩散模型进行微调 。
「LION」是一种层次化的基于点云的 3D 形状生成隐式点扩散模型 。它首先通过扩散模型生成形状隐变量,再使用另一个以形状为条件的扩散模型生成隐式的点,进而将隐式点解码为点云,还可以通过将点构成形状重建平滑 mesh 。
「-LDM」使用层次化的隐扩散模型生成场景,它训练了一个场景的自编码器,通过使用强度和特征 voxel 在神经场中考虑相机姿态、深度编码场景的 RGB 图像 。该模型训练了一个层次化的隐自编器,可以将神经场的 voxel 表征压缩到更小的隐空间,在隐自编码器的隐空间中拟合了一个层次化的隐扩散模型 。