ChatGPT 数据集之谜( 五 )


8.1. MT-NLG中的 Crawl数据集
Pile-CC:公开的数据集为498亿token , 确定的数据为227.12GB左右 , 参见上述Pile v1部分 。
CC-2020-50:公开的数据集为687亿token , 假设token的每字节率(per byte rate)为0.25 TpB=274.8GB 。
CC-2021-04:公开的数据集为826亿token , 假设token的每字节率为0.25 TpB=330.4GB
(来自/-11B):显示为219亿token 。根据论文[27] , 数据集确定为120GB 。
CC-(来自/-11B):公开的数据集为53亿token , 如上述部分所示 , 数据集确定为31GB 。
根据以上来源 , 可确认 Crawl的总数据量为983.32GB , 共计2283亿token 。
8.2. MT-NLG分组数据集( )
表14. MT-NLG 分组数据集 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
8.3. MT-NLG数据集总结
MT-NLG模型最终的数据集总结分析如下:
表15. MT-NLG数据集总结 。公示的数据以粗体表示 , 确定的数据以斜体表示 。
MT-NLG 数据集数据集
模型由于2021年发布 , 有2800亿参数 。该论文清楚地说明了所使用训练数据集所包含的高级token数量和大小[28] , 但没有说明详细内容 。
表16. 公开的数据集 () 。公开的数据以粗体表述 , 确定的数据以斜体表示 。
有趣的是 , 据论文披露:其Books数据集中包含一些超过500年历史(1500-2008)的书籍 。
9.1. 数据集分析
于2014年被谷歌收购 , 并在创建时获得了海量数据 。虽然论文中没有进一步详细描述 , 但第44页附录中的表A3b注明了中出现的前20个域[29] 。根据披露的每个域所占的百分比 , 我们可以使用的总token数(5060亿token)和总原始大小()来确定每个域的token数量和大小 。
表17. :前20个域 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
9.2. :关于维基百科数据集的分析
维基百科数据集的总规模很难确定 。在论文中 , 研究人员指出维基百科没有进行数据去重[30] 。然而 , 论文中列出的不同大小数据集(12.5GB与1GB)可能是由于失误而造成的 , 误将“10GB”写成了“1GB” 。无论如何 , 本文仅使用数据集版本 (12.5GB) 。
9.3. :不包括
数据集的组成部分不包括外链的数据集 。为了清楚起见 , 尽管是中的顶级域 , 但该数据集仅抓取域内的链接 。根据定义 , [31]由“所有的外链”组成(即指向域外的链接) 。
9.4. 分组数据集
被认为是的子组件 , 并被集成到的数据集汇总中 , 其分组基于以下列出的可用信息:
表18. 分组数据集 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
9.5. 数据集总结
是本文中最大的数据集 , 大小为10.5TB 。模型的最终数据集总结分析为:
表19. 数据集总结 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
结论
对于训练当代大型语言模型的数据集而言 , 这可能是最全面的整合分析内容(截止2022年初) 。在主要数据源不透明的情况下 , 本次研究主要从二级和三级来源收集数据 , 并经常需要假定来确定最终估计值 。随着研究人员要处理千万亿个token(1,000万亿)和数千TB的数据(1,000TB) , 确保详细披露数据集组成的文档变得越来越重要 。
特别值得关注的是 , 基于大型语言模型的强大AI系统产生的冗长而匿名的输出正在迅速发展 , 其中许多数据集的细节内容几乎没有文档说明 。