ChatGPT 数据集之谜 _数据

这把火越烧越旺。国内很多大厂相继声称要做中文版，还公布了上线时间表，不少科技圈已功成名就的大佬也按捺不住，携巨资下场，要创建“中国版“ 。
不过，看看过去半个月在群众眼里稍显窘迫的Meta的，以及紧急发布的Bard ，就知道在短期内打造一个比肩甚至超越效果的模型没那么简单。
让很多人不免感到诧异的是，的核心算法最初是由提出的，并且在大模型技术上的积累可以说不弱于，当然他们也不缺算力和数据，但为什么依然会被打的措手不及？
Meta首席AI科学家Yann LeCun最近抨击的名言实际上解释了背后的门道。他说， “只是巧妙的组合而已” ，这句话恰恰道出了一种无形的技术壁垒。
简单来说，即使其他团队的算法、数据、算力都准备的与相差无几，但就是没想到以一种精巧的方式把这些元素组装起来，没有，全行业不知道还需要去趟多少坑。
即使给出了算法上的一条路径，后来者想复现，算力、工程、数据，每一个要素都需要非常深的积累。七龙珠之中，算力是自由流通的商品，花钱可以买到，工程上有这样的开源项目和团队，因此，对互联网大厂之外的团队来说，剩下最大的挑战在于高质量训练数据集。
至今，并没有公开训练的相关数据集来源和具体细节，一定程度上也暂时卡了追赶者的脖子，更何况，业界公认中文互联网数据质量堪忧。
好在，互联网上总有热心的牛人分析技术的细枝末节，从杂乱的资料中串联起蛛丝马迹，从而归纳出非常有价值的信息。
作者｜Alan D.
翻译｜杨婷、徐佳渝、贾川
出品 |
一些研究人员的报告称，通用人工智能（AGI）可能是从我们当前的语言模型技术进行演进[1] ，预训练语言模型为AGI的发展铺平了道路。虽然模型训练数据集日渐增大，但缺乏基本指标文档，包括数据集大小、数据集token数量和具体的内容细节。
尽管业内提出了数据集组成和整理文档的标准[2] ，但几乎所有重点研究实验室在揭示模型训练数据集细节这方面都做得不够。这里整合的研究涵盖了2018年到2022年初从GPT-1到的精选语言模型的所有数据集（包括主要数据集：和 Crawl）的综合视图。
概述
图 1. 主要数据集大小的可视化汇总。未加权大小，以GB为单位。
2018年以来，大语言模型的开发和生产使用呈现出爆炸式增长。一些重点研究实验室报告称，公众对大语言模型的使用率达到了惊人高度。2021年3月，宣布[3]其GPT-3语言模型被“超过300个应用程序使用，平均每天能够生成45亿个词” ，也就是说仅单个模型每分钟就能生成310万词的新内容。
值得注意的是，这些语言模型甚至还没有被完全理解，斯坦福大学的研究人员[4]最近坦言， “目前我们对这些模型还缺乏认知，还不太了解这些模型的运转模式、不知道模型何时会失效，更不知道这些模型的突现性（）能产生什么效果” 。
随着新型AI技术的快速发展，模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密？它们又是如何组建的？本文综合整理并分析了现代大型语言模型的训练数据集。