ChatGPT 数据集之谜( 三 )


GPT-1数据集
2018年 , 发布了1.17亿参数的GPT-1 。在论文中 , 并没有公布模型训练数据集的来源和内容[10] , 另外 , 论文误将‘’拼写成了‘’ 。以作家未出版的免费书籍为基础 , 这些书籍来自于 , 这是一个自称为“世界上最大的独立电子书分销商” 的电子书网站 。这个数据集也被称为。经过几次重构之后 , 数据集的最终大小确定为4.6GB[11] 。
2021年 , 经过全面的回顾性分析 , 数据集对按流派分组的书籍数量和各类书籍百分比进行了更正[12] 。数据集中有关书籍类型的更多详细信息如下:
表4. 书籍类型 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
在随后的数据集重构中 , 数据集进一步过滤掉了书籍中的“吸血鬼”类别、降低了言情类书籍的百分比、增加了“历史”类书籍 , 增加了收集的书籍数量 。
3.1. GPT-1数据集总结
GPT-1最终的数据集总结分析如下:
表5.GPT-1数据集总结 。以GB为单位 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
GPT-2数据集
2019年 , 发布了拥有15亿参数的语言模型GPT-2 。GPT-2论文阐明了所用训练数据集的大小[13] , 不过并未说明其内容 。而GPT-2模型卡(model card)(在GPT-2 仓库中)说明了模型内容[14] 。
我们可以从GPT-3论文中得到token数量 , 该论文使用了扩展版本来表示190亿token 。据推测 , 2020年推出的扩展版本拥有12个月的额外数据( data) , 因此它可能比2019年推出的GPT-2版本大25%左右[15] 。GPT-2最终的token数量确定为150亿左右 。
如GPT-2论文所述 , 假设模型卡显示链接数时 , 每个链接都可以被4500万链接总数所除 , 那的内容在数据集中所占的百分比的详细信息就可以确定 。
然后可以使用确定的150亿token数量来查找每个域的token数量 。请注意 , 在可用的前1,000个域中 , 此处仅显示前50个域 。
表6. : 前50个域 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
4.1. GPT-2数据集总结
GPT-2模型最终的数据集总结分析如下:
表7. GPT-2数据集总结 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
GPT-3数据集
GPT-3模型由于2020年发布 。论文阐明了所用训练数据集的token数量[16] , 但训练数据集的内容和大小尚不清楚( Crawl的数据集大小除外[17])
表8. GPT-3数据集 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
5.1. GPT-3:关于和数据集的分析
特别值得关注的是 , 在的GPT-3论文中 , 并未公开数据集(120亿token)和数据集(550亿token)的大小和来源 。关于这两个数据集的来源人们提出了几个假设 , 包括来自和Sci-Hub的类似数据集 , 不过这两个数据集常以TB为计 , 大到无法匹配 。
5.2. GPT-3:
GPT-3使用的数据集不可能与GPT-1使用的数据集相同 , 原因在于的数据集更大 , 达120亿token 。在一篇引用的论文[19]中就提及GPT-1使用的数据集拥有9.848亿个词 , 但这可能只相当于13亿token(984.8字x 1.3字的token乘数) 。
通过标准化项目古腾堡语料库(SPGC) , 有可能与古腾堡项目保持一致性 。SPGC是一种开放式科学方法 , 被用于古腾堡项目完整的PG数据的精选()版本 。SPGC包含120亿个token[20] , 大约为21GB[21] 。