《万字长文带你解读AIGC》系列之入门篇

欢迎关注『CVHub』官方微信公众号!
0. 导读
随着的病毒式传播,生成式人工智能(AIGC, a.k.a AI- )因其分析和创造文本、图像、视频以及其他方面的出众能力而俨然成为当下最火热的投资赛道,没有之一 。在如此铺天盖地的信息轰炸下,每个人似乎难以置身事外,我们几乎不可能错过从某个角度瞥见AIGC的机会 。
值得注意的是,在人工智能从纯分析过渡到创造的时代,及其最新的语言模型GPT-4,只是众多AIGC任务中的一个工具而已 。在对的能力印象深刻的同时,很多人都在想它的局限性:GPT-5或其他未来的GPT变体能否帮助统一所有的AIGC任务,实现多样化的内容创作?为了回答这个问题,需要对现有的AIGC任务进行全面审查 。
因此,本文将通过提供对AIGC从技术到应用的初步了解,来及时填补这一空白 。现代生成式AI极度依赖于各种技术基础,从模型架构和自监督预训练到生成式建模方法(如GAN和) 。在介绍了基本技术之后,这项工作主要是根据各种AIGC任务的输出类型(包括文本、图像、视频、3D内容等)来研究其技术发展,这描绘了的全部未来潜力 。此外,我们总结了它们在一些主流行业的重要应用,如教育和创意内容 。最后,我们将集中讨论目前面临的挑战,并对生成式AI在不久的将来可能的发展进行了相关的展望 。
1. 引言
这段时间,以和为代表的 AIGC 工具迅速占领头条,充分表明人工智能的新时代即将到来 。在这种铺天盖地的媒体报道下,哪怕是个普通人都有很多机会可以一睹AIGC的风采 。然而,这些报道中的内容往往是偏颇的,有时甚至是误导的 。此外,在对的强大能力印象深刻的同时,许多人也在想象它的极限 。
就在近期,发布了GPT-4,与之前的变体GPT-3.5相比,它展示了显著的性能改进以及多模态生成能力,如图像理解 。被AIGC驱动的GPT-4的强大能力所打动,许多人想知道它的极限,即GPT-X是否能帮助下一代统一所有AIGC任务?
传统人工智能的目标主要是进行分类或回归( or ) 。此类模型可归纳为判别式AI,因此传统人工智能也经常被称为分析性人工智能 。相比之下,生成式AI通过创造新的内容来进行区分 。然而,这种技术往往也要求模型在生成新内容之前首先理解一些现有的数据(如文本指令 text ) 。从这个角度来看,判别式AI可以被看作是现代生成式AI的基础,它们之间的界限往往是模糊的 。
需要注意的是,判别式AI也能生成内容 。例如,标签内容是在图像分类中产生的 。尽管如此,图像识别往往不被认为是生成式AI的范畴,因为相对于图像或视频来说,标签内容的信息维度很低 。另一方面,生成式AI的典型任务涉及生成高维数据,如文本或图像 。这种生成的内容也可以作为合成数据,用于缓解深度学习中对更多数据的需求 。
如上所述,生成式AI与传统人工智能的区别在于其生成的内容 。说到这里,生成式AI在概念上与AIGC相似 。在描述基于人工智能的内容生成的背景下,这两个术语通常是可以互换的 。因此,在本文中,为了简单起见,我们把内容生成任务统称为AIGC 。例如,是一个被称为的AIGC任务的工具,考虑到AIGC任务的多样性,这其实只是冰山一角而已 。尽管生成式AI和AIGC之间有很高的相似性,但这两个术语有细微的区别 。具体来讲:
基于此,我们可以将这类基础技术划分为两大类:
在这些底层技术的基础上,能够构建出许多AIGC任务,并且可以根据生成的内容类型进行简单的分类:
此外,便是各种多模态融合相关的技术 。随着技术的发展,AIGC的性能在越来越多的任务中得到了广泛地验证 。例如,过去只限于回答简单的问题 。然而,最近的已被证明能够理解笑话并在简单指令()下生成代码 。另一方面,文本到图像曾经被认为是一项具有挑战性的任务;然而,最近的DALL-E 2和稳定扩散( )模型已经能够生成逼真的图像 。