NLP:预训练+转移学习( 四 )


例如对于“my doy is hairy”这句话:
## From ELMo(2018.2) To BERT(2018.10)
the ELMoof twoLMs that are thenis ahacky...
- can wethe same goalamodel
-:from LM toLMs
2LMs 1LM
BERT wason a lot more data
ELMo 通过读人上文来预测当前单词的方式为词嵌入引入了上下文信息,而的BERT模型则通过一种高效的双向网络同时对上文和下文建模 。
# GPT-2(2019)
在论文《are》中,GPT-2被提出,可以认为GPT-2是GPT的升级版!
GPT-2在GPT的基础上,有以下几个大变化:
1?? 使用的训练数据更多、更高质量、更宽泛
【NLP:预训练+转移学习】找了800万互联网网页作为语言模型的训练数据,在论文中称为,网页中的内容宽泛,训练的模型通用性好,这数据大概有40GB 。