新基建风向标:关于ChatGPT,必知10件事!( 二 )


读者可能会问,为什么之前不引入这些算法 。一个很重要的原因是,对于亿级参数的AI模型进行训练,是一个极耗时间和算力等成本的工作,无论是高校研究员还是企业研发人员,都面临着选择:一旦选择了一个算法方法,就只能一直在这个方向上投入下去,而切换算法或新增算法的成本和代价将非常高 。
什么是生成式AI?
生成式AI是一个人工智能算法的方向 。简单理解,生成式AI就是在已有数据和内容的基础上,产生新的数据和内容甚至是超出预期的内容 。生成式AI一直是人工智能所渴望的地平线,就像众多人工智能主题相关电影一样,机器人能够自主与人类进行创造性对话,甚至代替人类进行创造性的活动,例如创作小说、歌曲、绘画等等 。当然,在商业社会中,生成式AI被用于创造更具商业价值的内容,如会议纪要、撰写商业稿件、生成商用图像等 。
在之前,也存在着其它生成式AI算法,比如面向无监督学习的生成对抗网络(GAN)就非常流行 。与相比,GAN等代表了早期生成式AI算法 。的出现,可以说是生成式AI的分水岭 。实际上,在之前,还有IBM、小冰等公司分别尝试了生成式AI方向,各自推出了具有令人惊讶的生成式AI机器人,例如IBM辩论机器人 和小冰聊天机器人等 。不过,根据已经披露的信息,IBM和小冰等公司采取的是不同于大规模预训练模型的算法 。
代表的是由大规模预训练模型所驱动的生成式AI 。大规模预训练模型的意义在于其通用性,也就是基于GPT的大模型所代表的通用AI能力以及存储于大模型中的人类通用知识,再加上的情景学习、思维链、自然指令学习等新兴算法,生成式AI就有可能进入大规模商用,并进一步从文本生成泛化到图像和视频生成等,这就是的意义 。
这里需要提及一下由谷歌学者于2022年提出的思维链(Chain of ,COT) 。简单理解,思维链就是一系列中间推理步骤,即在采用大型预训练模型进行推理任务的时候,先生成思维链,从而使得模型的推理性能获得大幅度提升 。这就是众多令人惊艳之处之一,思维链的一大好处是无需微调模型参数,就可以显著改进模型的性能 。
与及其产品家族的关系是什么?

新基建风向标:关于ChatGPT,必知10件事!

文章插图
是 GPT-3.5的改进版本之一 。成立于2015年,创始人为一些科技领袖,包括特斯拉创始人埃隆·马斯克(Elon Musk)、美国创业孵化器Y 总裁山姆·阿尔特曼(Sam )、在线支付平台联合创始人彼得·蒂尔( Thiel)等 。最初的创立宗旨是实现安全的通用人工智能,如今的宗旨是确保通用人工智能让所有人受益 。
如今,主要有三条产品线:GPT、DALL-E和 。其中,GPT是面向自然语言预训练大模型;DALL-E基于GPT-3,可以通过自然语言生成图像;是一个自动语音识别模型 。最著名的当然是GPT系列产品,包括GPT、GPT-2、GPT-3、GPT-3.5/、GPT-4等 。GPT全称为 Pre- ,简单理解就是生成式预训练模型 。
大名鼎鼎的模型是由谷歌于2017年推出的开源机器翻译模型,后也被广泛用于各NLP领域 。相比于之前流行的RNN、CNN神经网络算法,的最大优点就是实现了并行计算,特别适应以云计算为代表的分布式共享计算基础设施 。谷歌当初开发的一个初衷就是为了适配谷歌Cloud TPU,因此的流行也就在情理之中了 。在的基础上,涌现了大量新型算法,特别是为大模型奠定了基础 。
GPT-2就是在基础之上的大模型 。GPT-1为亿级参数,GPT-2为15亿级参数,GPT-3为1750亿级参数 。GPT-3.5又有多个版本,包括具有13亿参数的、1750亿参数的和60亿参数的Codex(用于代码生成),以及GPT-3.5 Turbo 。其中,最为著名的是和,二者还在训练数据集上有所不同 。当大获成功后,又将集大成的GPT-3.5 Turbo接入 API,成本更低、速度更快、功能更全,不仅能生成对话还能生成代码 。