深度解读 ChatGPT基本原理( 三 )


当我们训练的时候就会给它一些语料,一个问题的答案应该是怎么样的,它看到这些就自己不断的纠错,然后神经网络就会给出越来越接近我们期望的答案 。
2.7、BERT vs GPT
两个最经典的基于的预训练模型,的BERT模型和的GPT-3
BERT
1)、from
——双向编码,同时考虑了左右两边的词
2)、Model(MLM)——擅长做完形填空
3)、Next(NSP)——是不是下一句
4)、Fine- ——微调完成下游任务

深度解读 ChatGPT基本原理

文章插图
BERT只需要编码器的内容,不需要生成文本 。
GPT-3
1)、 Pre-生成式
2)、 自回归
3)、/ 基于提示/指令,完成下游任务
BERT和GPT两个模型没有优劣而言,它是针对不同的任务类型设计的,BERT比较擅长于掌控全局,它就能够做很好的自然语言推理任务,比如情感分类、完形填空、命名实体识别、关系抽取这些都依赖优秀的全文理解能力;而GPT它的目标就是文本生成,所以对于聊天机器人或者问答系统来说,它就有比较天然的优势了 。
2.8、从 GPT 到的演变
GPT是的序列生成模型系列,能够产生高质量的自然语言文本 。从GPT-1到GPT-3,它的原理其实是很类似的,但是它的参数数量每次都是翻很多倍的增长,GPT-2到GPT-3,参数翻了100倍,输入数据维度也翻了接近8倍,可以使它一次性理解很多很多的token,也就是一次性输入很大的文本都可以同时理解 。
到了GPT-3的时候,已经能够生成非常流畅、准确的自然语言文本了,它生成的文本质量基本能够跟人类的写作相媲美,参数数量增加的好处就是让它能够更好的学习自然语言的规律,能够理解序列中更多的上下文信息,生成更连贯更准确的文本,GPT-3还增加了多语言的支持,能够处理更复杂的任务 。
是怎么从GPT-3模型的基础上再进一步演进的呢? 因为它是GPT-3模型上转么负责聊天机器人任务上的应用,它是GPT-3.5,叫做3.5优化版,它作为GPT的第三代,在万亿词汇量通用文字数据集上面训练完成的 。
它还有另一个兄弟模型,叫,都是建立在GPT-3.5基础上,为了让表现出色,对预训练数据集还做了微调,给它增加了基于人类反馈的强化学习,让它更能够了解人类想听什么,能够更好的处理哪些是人类想要的答案 。
在基础上又增加了一层 Layer,因为它是一个面向大众的聊天工具,它不能说错话,不能够说危害公众安全的回复,不可以宣传不应该宣传的东西,这个很重要,要控制它的回答是合理的 。
三、 的训练过程
系列模型的基本思路是让AI在通用的数据上学习文字接龙,掌握生成后续文本的能力,这样的训练有一个好处,就是它不需要人类去标注,只需要把一大堆的语料库输给它,它就会自己去训练,然后你可以给它打分,遮住下文让它去预测 。
一个问题可能有很多个答案,作为一个聊天对话机器人来说,我们想得到比较确定性的答案,GPT在进行文本生成的时候,需要进行一些人类的指导,让人类告诉它,什么样的回答才是我最想听到的,这就是基于人类反馈的训练的核心思路 。它的RLHF训练过程主要有三步:
3.1、监督调优模型
收集演示数据,用监督学习去训练生成规则(把一些问题写出答案,把问题和答案都丢给GPT去训练,这个是有监督的训练,已经有答案了,让AI一葫芦画瓢,这种方法可以引导AI往人类所期望的方向去做答)
但是,我们不可能人工穷举出所有可能的问题和答案,这个显然是不现实的,所以只是提供了可能几万个这种有答案的数据,主要是为了让它在这个基础上进行泛化,然后提供一个方向上的引导,就是告诉模型,你就往这个方向上去答 。