千亿规模参数源1.0预训练大模型的知识蒸馏技术

浪潮信息 AI 算法研究员李峰带大家了解大模型发展现状和大模型基础知识，交流大模型在产业应用中起到的作用和 AI 服务新态势。以下为本次分享原文：
01
大模型现状
大家可以看到，人工智能的模型其实从最早 2012 年（）问世以来，模型的深度和广度一直在逐级扩升，其中比较典型的是到了 2018 年的时候像 BERT-Large 等这种基于BERT 和结构的模型产生之后，兴起了一波模型规模和参数激增的热潮。从BERT模型出现到 GPT-3 拥有 1750 亿参数规模的千亿级大模型，大规模预训练模型成了一个新的技术发展趋势。
在 2021年9月年的时候，浪潮信息也发布了大规模预训练模型——源 1.0 。参数量是 2457 亿。站在现在的角度回看历史的发展长河，模型的尺度和规模是在逐级扩增的，这个趋势仍旧是有愈演愈烈的一个情况。
整体大模型的兴起绕不开一个基础模型结构。架构相当于是在接受输入之后，在内部进行了一个类似于查表的工作，其中的注意力层之所以叫注意力，最大的作用直白的来看就是可以去学习关系，所谓的注意力就是当我们看到一个东西的时候，对他感兴趣我们就会多看一会儿，对另外一个东西没有兴趣或者对它的兴趣比较低，则对它的关注会更少一点。这种注意力机制就是把所谓关注的程度转换成了一个可衡量的指标，这就是上面说到的注意力。用这样的一个注意力层可以更好的去学习所有输入之间的一个关系，最后的一个前馈层又对输入的信息进行一个高效的存储和检索。这样的一个模型结构与之前基于 RNN 的模型结构相比不仅是极大地提升了自然语言处理任务的精度，而且在计算性能上也远超 RNN 类的模型。结构的提出极大提升了计算效率和资源利用率。可以看到，在模型构建和训练算法的设计过程当中，算力和算法是相辅相成的，二者缺一不可，也就是我们提出的混合架构的一个算法设计。
另外结构之所以能够做大做强，再创辉煌，另一个根本的原因在于互联网上有相当多海量数据可以供模型进行自监督学习，这样才为我们庞大的水库中投入了庞大的数据资源和知识。
正是这些好处奠定了结构作为大模型基础架构的坚实的地位。
基于对前人的研究调研以及实证研究之后，我们发现随着数据量和参数量的增大，模型的精度仍旧可以进一步的提升，即损失函数值是可以进一步降低的。模型损失函数和模型的参数规模以及模型训练的数据量之间是呈现这样一个关系，现在仍旧处在相对中间的水平上，当模型和数据量的规模进一步增大的时候仍旧可以得到大模型边际效益带来的收益红利。
大模型正在作为一种新型的算法，成为整个人工智能技术新的一个制高点和一个新型的基础设施。可以说大模型是一种变革性的技术，他可以显著的提升我们人工智能模型在应用当中的性能表现，将人工智能的算法开发的过程由传统的烟囱式开发模式转向一种集中式建模，解决 AI 应用落地过程当中的一些场景碎片化、模型结构和模型训练需求零散化的痛点。
另外我们能看到的是对于大模型这个领域里面的玩家，主要是来自中美两国。从 GPT3发布以后我们国内也开始相应的有不同的参数规模的模型来去引领世界大模型业界的一个浪潮。正如我们之前提到的，在大规模预训练模型里面，模型参数提升带来的边际收益仍旧存在，所以大家在短期之内仍旧在吃这种大模型参数提升带来的收益红利。
02
浪潮·源 1.0 大规模中文自然语言模型
浪潮·源 1.0 大规模中文自然语言处理模型有 2457 亿参数，于 2021 年的时候 9 月份发布，在发布之时，凭借参数量登顶了业界规模最大的中文自然语言的单体模型。在这个模型整个构建的时候，最大的一个问题就是数据，数据集从哪来，怎样去构建，包含哪些内容。这里给大家列了一个表来简单阐述，源 1.0 的中文数据集包含了有互联网中文社区近五年的所有数据，以及一些公开数据集、百科、电子书等原始语料，总计超过 800TB 。我们对原始语料做了过滤转换、去重，之后构建了打分模型对所有的样本语料进行高质量和低质量的判定。经过一系列的处理，最终我们得到了 5T 的高质量中文语料数据集，这个语料数据也是目前中文语料当中规模最大，质量最高的语料库。我们的一些合作伙伴也拿我们公开的语料数据进行了一些模型的预训练，也是成功登顶了 CLUE 等测评榜单。