ChatGPT 数据集之谜( 二 )


因为这方面的原始文献并不对外公开 , 所以本文搜集整合了二、三级研究资料 , 在必要的时候本文会采用假设的方式来推算最终结果 。
在本文中 , 我们会将原始论文中已经明确的特定细节(例如token数量或数据集大小)归类为“公开的()”数据 , 并作加粗处理 。
多数情况下 , 适当地参考二、三级文献 , 并采用假设的方式来确定最终结果是很有必要的 。在这些情况下 , token数量和数据集大小等细节是“确定的()” , 并以斜体标记 。
模型数据集可分为六类 , 分别是:维基百科、书籍、期刊、链接、 Crawl和其他数据集 。
表1. 主要数据集大小汇总 。以GB为单位 。公开的数据以粗体表示 。确定的数据以斜体表示 。仅原始训练数据集大小 。
1.1. 维基百科
维基百科是一个免费的多语言协作在线百科全书 , 由超过300,000名志愿者组成的社区编写和维护 。截至2022年4月 , 英文版维基百科中有超过640万篇文章 , 包含超40亿个词[5] 。维基百科中的文本很有价值 , 因为它被严格引用 , 以说明性文字形式写成 , 并且跨越多种语言和领域 。一般来说 , 重点研究实验室会首先选取它的纯英文过滤版作为数据集 。
1.2.书籍
故事型书籍由小说和非小说两大类组成 , 主要用于训练模型的故事讲述能力和反应能力 , 数据集包括 和 ( /)等 。
1.3.杂志期刊
预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础 , 因为学术写作通常来说更有条理、理性和细致 。这类数据集包括ArXiv和美国国家卫生研究院等 。
1.4.链接
是一个大型数据集 , 它的数据是从社交媒体平台所有出站链接网络中爬取的 , 每个链接至少有三个赞 , 代表了流行内容的风向标 , 对输出优质链接和后续文本数据具有指导作用 。
1.5. Crawl
Crawl是2008年至今的一个网站抓取的大型数据集 , 数据包含原始网页、元数据和文本提取 , 它的文本来自不同语言、不同领域 。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集 。
1.6. 其他数据集
不同于上述类别 , 这类数据集由等代码数据集、 等对话论坛和视频字幕数据集组成 。
常用数据集
2019年以来 , 大多数基于的大型语言模型 (LLM) 都依赖于英文维基百科和 Crawl的大型数据集 。在本节中 , 我们参考了Jesse Dodge和(AI2)[8]团队的综合分析 , 按类别对英文维基百科作了高级概述 , 并在 Crawl数据集[7]的基础上 , 用谷歌C4[6] ( Clean)在 Crawl中提供了顶级域() 。
2.1. 维基百科(英文版)分析
下面按类别[9]列出了维基百科的详细信息 , 涵盖了2015年抽样的1001篇随机文章 , 研究人员注意到随时间推移文章传播的稳定性 。假设一个11.4GB、经过清理和过滤的维基百科英文版有30亿token , 我们就可以确定类别大小和token 。
表2. 英文维基百科数据集类别 。公开的数据以粗体表示 。确定的数据以斜体表示 。
2.2Crawl分析
基于 (AI2)的C4论文 , 我们可以确定 , 过滤后的英文C4数据集的每个域的token数和总体百分比 , 该数据集为305GB , 其中token数为1560亿 。
表3. C4:前23个域(不包括维基百科) 。公开的数据以粗体表示 , 确定的数据以斜体表示 。