【论文阅读】Scaling Laws for Neural Language M

前言
power laws:N , D , C N, D, C N,D,C 三个因素中,当其他两个不受限制时,模型性能与任意一个因素都有 power-law
of :只要我们一起增大N N N 和D D D, 性能就会可预测得提高 。但是当其中一个被固定,另一个在增加时,性能就会下降 。二者比例关系大致为N 0.74 / D N^{0.74}/D N0.74/D,这意味着,每次将模型增大8倍,只需要将数据量增大6倍来避免性能下降(过拟合)
of :在模型参数量不变的情况下,模型的表现是可以预测的 。通过对早期的训练曲线进行推断,就能粗略估计训练更长时间后模型的表现
with text :当在分布不同的文本上评估模型时,结果与在验证集上的结果密切相关,损失的偏移量大致恒定 。这说明用验证集的结果来作为评估指标是合理的
:大模型能在更少的step内,更少的数据(图4)上达到相同的性能
is :当计算量固定时,但是模型大小和数据量没有限制时,大模型在得到最佳性能时,还远远没有收敛 。最大训练效率训练比训练小模型到收敛是更的,数据需求随着计算量增长比较慢D ~ C 0.27 D \sim C^{0.27} D~C0.27
batch size: 最好的batch size与loss有 power-law 关系,也受到梯度噪声规模的影响
总的来说,LLM的性能随着模型大小,数据量和计算量的增大平滑,可预测地提升
ofLaws
当性能只受除了层之外的模型参数N,size D,C_min三者之一限制时,自回归的模型的 test loss是可以用一个 power-law预测的 。
power-lawα N , α D , α C m i n \, \, \^{min} αN?,αD?,αCmin? 代表当我们增加模型参数,数据量,计算量时模型性能提升的程度(越大越好),N c , D c , C c m i n N_c, D_c, C_c^{min} Nc?,Dc?,Ccmin?的具体值没有实际意义
batch size与模型在测试集上的表现L L L 之间有一个 power-law
【【论文阅读】Scaling Laws for Neural Language M】当计算量C C C 有限,其他因素不受限时,最佳的N , B , S , D N,B,S,D N,B,S,D 与C C C 的关系是