深度解读 ChatGPT基本原理( 三 ) _模型

当我们训练的时候就会给它一些语料，一个问题的答案应该是怎么样的，它看到这些就自己不断的纠错，然后神经网络就会给出越来越接近我们期望的答案。
2.7、BERT vs GPT
两个最经典的基于的预训练模型，的BERT模型和的GPT-3
BERT
1）、from
——双向编码，同时考虑了左右两边的词
2）、Model（MLM）——擅长做完形填空
3）、Next（NSP）——是不是下一句
4）、Fine- ——微调完成下游任务

文章插图
BERT只需要编码器的内容，不需要生成文本。
GPT-3
1）、 Pre-生成式
2）、自回归
3）、/ 基于提示/指令，完成下游任务
BERT和GPT两个模型没有优劣而言，它是针对不同的任务类型设计的，BERT比较擅长于掌控全局，它就能够做很好的自然语言推理任务，比如情感分类、完形填空、命名实体识别、关系抽取这些都依赖优秀的全文理解能力；而GPT它的目标就是文本生成，所以对于聊天机器人或者问答系统来说，它就有比较天然的优势了。
2.8、从 GPT 到的演变
GPT是的序列生成模型系列，能够产生高质量的自然语言文本。从GPT-1到GPT-3，它的原理其实是很类似的，但是它的参数数量每次都是翻很多倍的增长，GPT-2到GPT-3，参数翻了100倍，输入数据维度也翻了接近8倍，可以使它一次性理解很多很多的token，也就是一次性输入很大的文本都可以同时理解。
到了GPT-3的时候，已经能够生成非常流畅、准确的自然语言文本了，它生成的文本质量基本能够跟人类的写作相媲美，参数数量增加的好处就是让它能够更好的学习自然语言的规律，能够理解序列中更多的上下文信息，生成更连贯更准确的文本，GPT-3还增加了多语言的支持，能够处理更复杂的任务。
是怎么从GPT-3模型的基础上再进一步演进的呢？因为它是GPT-3模型上转么负责聊天机器人任务上的应用，它是GPT-3.5，叫做3.5优化版，它作为GPT的第三代，在万亿词汇量通用文字数据集上面训练完成的。
它还有另一个兄弟模型，叫，都是建立在GPT-3.5基础上，为了让表现出色，对预训练数据集还做了微调，给它增加了基于人类反馈的强化学习，让它更能够了解人类想听什么，能够更好的处理哪些是人类想要的答案。
在基础上又增加了一层 Layer，因为它是一个面向大众的聊天工具，它不能说错话，不能够说危害公众安全的回复，不可以宣传不应该宣传的东西，这个很重要，要控制它的回答是合理的。
三、的训练过程
系列模型的基本思路是让AI在通用的数据上学习文字接龙，掌握生成后续文本的能力，这样的训练有一个好处，就是它不需要人类去标注，只需要把一大堆的语料库输给它，它就会自己去训练，然后你可以给它打分，遮住下文让它去预测。
一个问题可能有很多个答案，作为一个聊天对话机器人来说，我们想得到比较确定性的答案，GPT在进行文本生成的时候，需要进行一些人类的指导，让人类告诉它，什么样的回答才是我最想听到的，这就是基于人类反馈的训练的核心思路。它的RLHF训练过程主要有三步：
3.1、监督调优模型
收集演示数据，用监督学习去训练生成规则（把一些问题写出答案，把问题和答案都丢给GPT去训练，这个是有监督的训练，已经有答案了，让AI一葫芦画瓢，这种方法可以引导AI往人类所期望的方向去做答）
但是，我们不可能人工穷举出所有可能的问题和答案，这个显然是不现实的，所以只是提供了可能几万个这种有答案的数据，主要是为了让它在这个基础上进行泛化，然后提供一个方向上的引导，就是告诉模型，你就往这个方向上去答。