新基建风向标：关于ChatGPT，必知10件事！( 二 ) _模型

读者可能会问，为什么之前不引入这些算法。一个很重要的原因是，对于亿级参数的AI模型进行训练，是一个极耗时间和算力等成本的工作，无论是高校研究员还是企业研发人员，都面临着选择：一旦选择了一个算法方法，就只能一直在这个方向上投入下去，而切换算法或新增算法的成本和代价将非常高。
什么是生成式AI？
生成式AI是一个人工智能算法的方向。简单理解，生成式AI就是在已有数据和内容的基础上，产生新的数据和内容甚至是超出预期的内容。生成式AI一直是人工智能所渴望的地平线，就像众多人工智能主题相关电影一样，机器人能够自主与人类进行创造性对话，甚至代替人类进行创造性的活动，例如创作小说、歌曲、绘画等等。当然，在商业社会中，生成式AI被用于创造更具商业价值的内容，如会议纪要、撰写商业稿件、生成商用图像等。
在之前，也存在着其它生成式AI算法，比如面向无监督学习的生成对抗网络（GAN）就非常流行。与相比，GAN等代表了早期生成式AI算法。的出现，可以说是生成式AI的分水岭。实际上，在之前，还有IBM、小冰等公司分别尝试了生成式AI方向，各自推出了具有令人惊讶的生成式AI机器人，例如IBM辩论机器人和小冰聊天机器人等。不过，根据已经披露的信息，IBM和小冰等公司采取的是不同于大规模预训练模型的算法。
代表的是由大规模预训练模型所驱动的生成式AI 。大规模预训练模型的意义在于其通用性，也就是基于GPT的大模型所代表的通用AI能力以及存储于大模型中的人类通用知识，再加上的情景学习、思维链、自然指令学习等新兴算法，生成式AI就有可能进入大规模商用，并进一步从文本生成泛化到图像和视频生成等，这就是的意义。
这里需要提及一下由谷歌学者于2022年提出的思维链（Chain of ，COT）。简单理解，思维链就是一系列中间推理步骤，即在采用大型预训练模型进行推理任务的时候，先生成思维链，从而使得模型的推理性能获得大幅度提升。这就是众多令人惊艳之处之一，思维链的一大好处是无需微调模型参数，就可以显著改进模型的性能。
与及其产品家族的关系是什么？

文章插图
是 GPT-3.5的改进版本之一。成立于2015年，创始人为一些科技领袖，包括特斯拉创始人埃隆·马斯克（Elon Musk）、美国创业孵化器Y 总裁山姆·阿尔特曼（Sam ）、在线支付平台联合创始人彼得·蒂尔（ Thiel）等。最初的创立宗旨是实现安全的通用人工智能，如今的宗旨是确保通用人工智能让所有人受益。
如今，主要有三条产品线：GPT、DALL-E和。其中，GPT是面向自然语言预训练大模型；DALL-E基于GPT-3，可以通过自然语言生成图像；是一个自动语音识别模型。最著名的当然是GPT系列产品，包括GPT、GPT-2、GPT-3、GPT-3.5/、GPT-4等。GPT全称为 Pre- ，简单理解就是生成式预训练模型。
大名鼎鼎的模型是由谷歌于2017年推出的开源机器翻译模型，后也被广泛用于各NLP领域。相比于之前流行的RNN、CNN神经网络算法，的最大优点就是实现了并行计算，特别适应以云计算为代表的分布式共享计算基础设施。谷歌当初开发的一个初衷就是为了适配谷歌Cloud TPU，因此的流行也就在情理之中了。在的基础上，涌现了大量新型算法，特别是为大模型奠定了基础。
GPT-2就是在基础之上的大模型。GPT-1为亿级参数，GPT-2为15亿级参数，GPT-3为1750亿级参数。GPT-3.5又有多个版本，包括具有13亿参数的、1750亿参数的和60亿参数的Codex（用于代码生成），以及GPT-3.5 Turbo 。其中，最为著名的是和，二者还在训练数据集上有所不同。当大获成功后，又将集大成的GPT-3.5 Turbo接入 API，成本更低、速度更快、功能更全，不仅能生成对话还能生成代码。