ChatGPT 数据集之谜( 三 ) _数据

GPT-1数据集
2018年，发布了1.17亿参数的GPT-1 。在论文中，并没有公布模型训练数据集的来源和内容[10] ，另外，论文误将‘’拼写成了‘’ 。以作家未出版的免费书籍为基础，这些书籍来自于，这是一个自称为“世界上最大的独立电子书分销商” 的电子书网站。这个数据集也被称为。经过几次重构之后，数据集的最终大小确定为4.6GB[11] 。
2021年，经过全面的回顾性分析，数据集对按流派分组的书籍数量和各类书籍百分比进行了更正[12] 。数据集中有关书籍类型的更多详细信息如下：
表4. 书籍类型。公开的数据以粗体表示，确定的数据以斜体表示。
在随后的数据集重构中，数据集进一步过滤掉了书籍中的“吸血鬼”类别、降低了言情类书籍的百分比、增加了“历史”类书籍，增加了收集的书籍数量。
3.1. GPT-1数据集总结
GPT-1最终的数据集总结分析如下：
表5.GPT-1数据集总结。以GB为单位。公开的数据以粗体表示，确定的数据以斜体表示。
GPT-2数据集
2019年，发布了拥有15亿参数的语言模型GPT-2 。GPT-2论文阐明了所用训练数据集的大小[13] ，不过并未说明其内容。而GPT-2模型卡（model card）（在GPT-2 仓库中）说明了模型内容[14] 。
我们可以从GPT-3论文中得到token数量，该论文使用了扩展版本来表示190亿token 。据推测， 2020年推出的扩展版本拥有12个月的额外数据（ data），因此它可能比2019年推出的GPT-2版本大25%左右[15] 。GPT-2最终的token数量确定为150亿左右。
如GPT-2论文所述，假设模型卡显示链接数时，每个链接都可以被4500万链接总数所除，那的内容在数据集中所占的百分比的详细信息就可以确定。
然后可以使用确定的150亿token数量来查找每个域的token数量。请注意，在可用的前1,000个域中，此处仅显示前50个域。
表6. : 前50个域。公开的数据以粗体表示，确定的数据以斜体表示。
4.1. GPT-2数据集总结
GPT-2模型最终的数据集总结分析如下：
表7. GPT-2数据集总结。公开的数据以粗体表示，确定的数据以斜体表示。
GPT-3数据集
GPT-3模型由于2020年发布。论文阐明了所用训练数据集的token数量[16] ，但训练数据集的内容和大小尚不清楚（ Crawl的数据集大小除外[17]）
表8. GPT-3数据集。公开的数据以粗体表示，确定的数据以斜体表示。
5.1. GPT-3：关于和数据集的分析
特别值得关注的是，在的GPT-3论文中，并未公开数据集（120亿token）和数据集（550亿token）的大小和来源。关于这两个数据集的来源人们提出了几个假设，包括来自和Sci-Hub的类似数据集，不过这两个数据集常以TB为计，大到无法匹配。
5.2. GPT-3：
GPT-3使用的数据集不可能与GPT-1使用的数据集相同，原因在于的数据集更大，达120亿token 。在一篇引用的论文[19]中就提及GPT-1使用的数据集拥有9.848亿个词，但这可能只相当于13亿token（984.8字x 1.3字的token乘数）。
通过标准化项目古腾堡语料库（SPGC），有可能与古腾堡项目保持一致性。SPGC是一种开放式科学方法，被用于古腾堡项目完整的PG数据的精选（）版本。SPGC包含120亿个token[20] ，大约为21GB[21] 。