ChatGPT 数据集之谜( 二 ) _数据

因为这方面的原始文献并不对外公开，所以本文搜集整合了二、三级研究资料，在必要的时候本文会采用假设的方式来推算最终结果。
在本文中，我们会将原始论文中已经明确的特定细节（例如token数量或数据集大小）归类为“公开的（）”数据，并作加粗处理。
多数情况下，适当地参考二、三级文献，并采用假设的方式来确定最终结果是很有必要的。在这些情况下， token数量和数据集大小等细节是“确定的（）” ，并以斜体标记。
模型数据集可分为六类，分别是：维基百科、书籍、期刊、链接、 Crawl和其他数据集。
表1. 主要数据集大小汇总。以GB为单位。公开的数据以粗体表示。确定的数据以斜体表示。仅原始训练数据集大小。
1.1. 维基百科
维基百科是一个免费的多语言协作在线百科全书，由超过300,000名志愿者组成的社区编写和维护。截至2022年4月，英文版维基百科中有超过640万篇文章，包含超40亿个词[5] 。维基百科中的文本很有价值，因为它被严格引用，以说明性文字形式写成，并且跨越多种语言和领域。一般来说，重点研究实验室会首先选取它的纯英文过滤版作为数据集。
1.2.书籍
故事型书籍由小说和非小说两大类组成，主要用于训练模型的故事讲述能力和反应能力，数据集包括和 ( /)等。
1.3.杂志期刊
预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。这类数据集包括ArXiv和美国国家卫生研究院等。
1.4.链接
是一个大型数据集，它的数据是从社交媒体平台所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。
1.5. Crawl
Crawl是2008年至今的一个网站抓取的大型数据集，数据包含原始网页、元数据和文本提取，它的文本来自不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版（C4）作为数据集。
1.6. 其他数据集
不同于上述类别，这类数据集由等代码数据集、等对话论坛和视频字幕数据集组成。
常用数据集
2019年以来，大多数基于的大型语言模型 (LLM) 都依赖于英文维基百科和 Crawl的大型数据集。在本节中，我们参考了Jesse Dodge和（AI2）[8]团队的综合分析，按类别对英文维基百科作了高级概述，并在 Crawl数据集[7]的基础上，用谷歌C4[6] ( Clean)在 Crawl中提供了顶级域（）。
2.1. 维基百科（英文版）分析
下面按类别[9]列出了维基百科的详细信息，涵盖了2015年抽样的1001篇随机文章，研究人员注意到随时间推移文章传播的稳定性。假设一个11.4GB、经过清理和过滤的维基百科英文版有30亿token ，我们就可以确定类别大小和token 。
表2. 英文维基百科数据集类别。公开的数据以粗体表示。确定的数据以斜体表示。
2.2Crawl分析
基于 (AI2)的C4论文，我们可以确定，过滤后的英文C4数据集的每个域的token数和总体百分比，该数据集为305GB ，其中token数为1560亿。
表3. C4：前23个域（不包括维基百科）。公开的数据以粗体表示，确定的数据以斜体表示。