GPT系列的数据集之谜( 四 )


▲表10. The Pile v1数据集 。公开的数据以粗体表示,确定的数据以斜体表示 。6.1. The Pile v1分组数据集( )
为了确定如‘Books’、‘’和‘CC’这类数据集的大小,笔者对数据集进行了分组,如下表所示 。
▲表11. The Pile v1分组数据集(不包括、CC 和 ) 。公开的数据以粗体表示,确定的以斜体表示 。6.2. The Pile v1数据集总结
The Pile v1数据集与GPT-J和GPT-NeoX-20B模型的最终数据集总结分析如下:
▲表 12. Pile v1 数据集总结 。公开的数据以粗体表示,确定的数据以斜体表示 。7 -11B和数据集
2019年,Meta AI(当时称之为 AI)和华盛顿大学联合发布了拥有1.25亿参数的模型 。次年,Meta AI发布了拥有110亿参数的-11B模型 。-11B使用的训练数据集与相同 。[24]论文阐明了所用训练数据集的内容,不过必须参考引用的论文(BERT[25]和[26])来确定最终的数据集大小 。

GPT系列的数据集之谜

文章插图
:确定的数据集为4.6GB,如上面的GPT-1部分所示 。
维基百科:公开的数据集为“16GB(加上英文维基百科)” 。在减去数据集(4.6GB,如上面的GPT-1部分所述)后,维基百科数据集确定为11.4GB 。
CC-News:(经过滤后)公开的数据集为76GB 。
:公开的数据集为38GB 。
:公开的数据集为31GB 。请注意,此数据集是“基于常识推理任务问题”的 Crawl内容,不属于本文的‘Books’类别 。相反,将与CC-News数据集(76GB)相结合, Crawl的总数据集则为107GB 。
7.1. -11B和的数据集总结
-11B和最终的数据集总结分析如下:
▲表13. -11B和的数据集总结 。公示的数据以粗体表示,确定的数据以斜体表示8 MT-NLG数据集
2021年,英伟达和微软发布了拥有5300亿参数的语言模型MT-NLG 。MT-NLG是微软 NLG(拥有170亿参数)和英伟达-LM(拥有83亿参数)的“继任者” 。MT-NLG论文阐明了所用训练数据集的来源和token数量,不过没有明确指出数据集的大小 。
如前所述,有关数据集大小的更多详情,可以使用The Pile v1论文中提供的信息来确定 。虽然使用的组件相同,但注意的是,MT-NLG和The Pile v1中报告的组件大小却各不相同,这是由于来自 AI (The Pile v1数据集)和/ (MT-NLG模型)的研究人员采用了不同的数据过滤和去重方法 。
8.1. MT-NLG中的 Crawl数据集
Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pile v1部分 。
CC-2020-50:公开的数据集为687亿token,假设token的每字节率(per byte rate)为0.25 TpB=274.8GB 。
CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25 TpB=330.4GB
(来自/-11B):显示为219亿token 。根据论文[27],数据集确定为120GB 。
CC-(来自/-11B):公开的数据集为53亿token,如上述部分所示,数据集确定为31GB 。
根据以上来源,可确认 Crawl的总数据量为983.32GB,共计2283亿token 。
8.2. MT-NLG分组数据集( )
▲表14. MT-NLG 分组数据集 。公开的数据以粗体表示,确定的数据以斜体表示8.3. MT-NLG数据集总结
MT-NLG模型最终的数据集总结分析如下:
▲表15. MT-NLG数据集总结 。公示的数据以粗体表示,确定的数据以斜体表示 。9 MT-NLG 数据集数据集
模型由于2021年发布,有2800亿参数 。该论文清楚地说明了所使用训练数据集所包含的高级token数量和大小[28],但没有说明详细内容 。
▲表16. 公开的数据集 () 。公开的数据以粗体表述,确定的数据以斜体表示 。
有趣的是,据论文披露:其Books数据集中包含一些超过500年历史(1500-2008)的书籍 。
9.1. 数据集分析