ChatGPT 数据集之谜( 五 ) _数据

8.1. MT-NLG中的 Crawl数据集
Pile-CC：公开的数据集为498亿token ，确定的数据为227.12GB左右，参见上述Pile v1部分。
CC-2020-50:公开的数据集为687亿token ，假设token的每字节率（per byte rate）为0.25 TpB=274.8GB 。
CC-2021-04：公开的数据集为826亿token ，假设token的每字节率为0.25 TpB=330.4GB
（来自/-11B）：显示为219亿token 。根据论文[27] ，数据集确定为120GB 。
CC-(来自/-11B)：公开的数据集为53亿token ，如上述部分所示，数据集确定为31GB 。
根据以上来源，可确认 Crawl的总数据量为983.32GB ，共计2283亿token 。
8.2. MT-NLG分组数据集（）
表14. MT-NLG 分组数据集。公开的数据以粗体表示，确定的数据以斜体表示。
8.3. MT-NLG数据集总结
MT-NLG模型最终的数据集总结分析如下：
表15. MT-NLG数据集总结。公示的数据以粗体表示，确定的数据以斜体表示。
MT-NLG 数据集数据集
模型由于2021年发布，有2800亿参数。该论文清楚地说明了所使用训练数据集所包含的高级token数量和大小[28] ，但没有说明详细内容。
表16. 公开的数据集 () 。公开的数据以粗体表述，确定的数据以斜体表示。
有趣的是，据论文披露：其Books数据集中包含一些超过500年历史（1500-2008）的书籍。
9.1. 数据集分析
于2014年被谷歌收购，并在创建时获得了海量数据。虽然论文中没有进一步详细描述，但第44页附录中的表A3b注明了中出现的前20个域[29] 。根据披露的每个域所占的百分比，我们可以使用的总token数（5060亿token）和总原始大小（）来确定每个域的token数量和大小。
表17. ：前20个域。公开的数据以粗体表示，确定的数据以斜体表示。
9.2. ：关于维基百科数据集的分析
维基百科数据集的总规模很难确定。在论文中，研究人员指出维基百科没有进行数据去重[30] 。然而，论文中列出的不同大小数据集（12.5GB与1GB）可能是由于失误而造成的，误将“10GB”写成了“1GB” 。无论如何，本文仅使用数据集版本 (12.5GB) 。
9.3. :不包括
数据集的组成部分不包括外链的数据集。为了清楚起见，尽管是中的顶级域，但该数据集仅抓取域内的链接。根据定义， [31]由“所有的外链”组成（即指向域外的链接）。
9.4. 分组数据集
被认为是的子组件，并被集成到的数据集汇总中，其分组基于以下列出的可用信息：
表18. 分组数据集。公开的数据以粗体表示，确定的数据以斜体表示。
9.5. 数据集总结
是本文中最大的数据集，大小为10.5TB 。模型的最终数据集总结分析为：
表19. 数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。
结论
对于训练当代大型语言模型的数据集而言，这可能是最全面的整合分析内容（截止2022年初）。在主要数据源不透明的情况下，本次研究主要从二级和三级来源收集数据，并经常需要假定来确定最终估计值。随着研究人员要处理千万亿个token（1,000万亿）和数千TB的数据（1,000TB），确保详细披露数据集组成的文档变得越来越重要。
特别值得关注的是，基于大型语言模型的强大AI系统产生的冗长而匿名的输出正在迅速发展，其中许多数据集的细节内容几乎没有文档说明。