视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾( 二 ) _模型

高俊博士指出，未来研究者们可以探究如何将单个类别的物体生成扩展到多类别、通用物体生成；从物体生成扩展到场景生成；从静态内容生成扩展到动态内容生成。
通用视觉模型初探
王鑫龙 | 智源研究院研究员

文章插图
对通用视觉智能的探索可以分为两个部分：
（1）视觉表征。抽象出视觉信号，并学习通用表征。
（2）视觉通才模型。训练可以解决开放场景下各类任务（例如，分类、检测、分割）的视觉通才模型。
「EVA」模型是目前具有级别参数的最好的预训练模型，它将 CLIP 与 MIM 方法相结合，遮盖输入图像的一部分，并重建被遮盖部分的 CLIP 特征，通过 CLIP 特征提供高级别语义，通过掩码建模提供结构空间信息。
王鑫龙博士指出，扩展模型规模的目的在于使其具有以下三种能力：在经典任务（例如，、、COCO）上取得新的性能突破；解决以往难以解决的任务（例如，LVIS长尾识别）；带来新的能力（例如，帮助 CLIP 更好地训练）。
「EVA-CLIP」使用 EVA 预训练模型初始化图像编码器，通过 LAMB 优化器使模型训练收敛更快，并通过 FLIP 提升了训练效率。EVA-CLIP 5B 在 -1K 上取得了 82% 的零样本分类精度，是当前最强的开源CLIP模型。
「」旨在将分类、检测、分割、关键点检测、底层视觉等任务统一为输入图像输出图像的任务，在无需模型微调的情况下自动完成任务，并展现出新的能力，探索了一种通用的视觉任务借口，具备上下文视觉学习能力。该模型的架构为 ViT，通过回归损失监督训练。
「」基于实现了「分割一切」的能力，是对通用分割模型的探索。王鑫龙博士团队将语义分割、实例分割等各种分割数据汇聚起来，统一成小样本提示的上下文视觉训练样例。
王鑫龙博士指出，上述工作背后的思想是「统一的学习方法+可扩展的数据+大模型」。其中，最困难的是构建可扩展的数据。
「Emu」是一个能接收多模态输入、产生多模态输出的大模型，进行统一的多模态上下文学习。王鑫龙博士团队将图像、文本、交错图文、交错视频文本等数据统一成相同形式，进行多模态上下文学习，完成感知、推理、生成等任务。
Image, Video, and 3Dwith
Kreis |高级研究科学家
Huan Ling |研究科学家
扩散模型是一类基于评分的生成模型，近年来取得了令人瞩目的效果。目前，已有研究人员将扩散模型用于「文-图」、「文-3D」、「文-视频」生成，「3D 形状合成」、「3D 场景生成」等任务。
「eDiff-I」使用集成的专家去噪器实现「文-图」生成扩散模型，它利用 T5 和 CLIP 作为文本编码器、利用 CLIP 作为图像编码器，并且在基础扩散模型之上添加了 2 个超分辨率模型，包含 9.1B 的参数。该模型在不同的合成阶段使用专家去噪器。
「」实现了高分辨率的「文-3D」内容生成。该模型使用 NGP 根据 2D 扩散模型实现了由粗到精的 3D 形状蒸馏。在第一个阶段，模型首先低分辨率先验优化神经场表征，从而得到粗模型。在第二阶段，模型进一步可微地根据强度和颜色场提取纹理 3D mesh，使用高分辨率潜扩散模型进行微调。
「LION」是一种层次化的基于点云的 3D 形状生成隐式点扩散模型。它首先通过扩散模型生成形状隐变量，再使用另一个以形状为条件的扩散模型生成隐式的点，进而将隐式点解码为点云，还可以通过将点构成形状重建平滑 mesh 。
「-LDM」使用层次化的隐扩散模型生成场景，它训练了一个场景的自编码器，通过使用强度和特征 voxel 在神经场中考虑相机姿态、深度编码场景的 RGB 图像。该模型训练了一个层次化的隐自编器，可以将神经场的 voxel 表征压缩到更小的隐空间，在隐自编码器的隐空间中拟合了一个层次化的隐扩散模型。