前言
power laws:N , D , C N, D, C N,D,C 三个因素中,当其他两个不受限制时,模型性能与任意一个因素都有 power-law
of :只要我们一起增大N N N 和D D D, 性能就会可预测得提高 。但是当其中一个被固定,另一个在增加时,性能就会下降 。二者比例关系大致为N 0.74 / D N^{0.74}/D N0.74/D,这意味着,每次将模型增大8倍,只需要将数据量增大6倍来避免性能下降(过拟合)
of :在模型参数量不变的情况下,模型的表现是可以预测的 。通过对早期的训练曲线进行推断,就能粗略估计训练更长时间后模型的表现
with text :当在分布不同的文本上评估模型时,结果与在验证集上的结果密切相关,损失的偏移量大致恒定 。这说明用验证集的结果来作为评估指标是合理的
:大模型能在更少的step内,更少的数据(图4)上达到相同的性能
is :当计算量固定时,但是模型大小和数据量没有限制时,大模型在得到最佳性能时,还远远没有收敛 。最大训练效率训练比训练小模型到收敛是更的,数据需求随着计算量增长比较慢D ~ C 0.27 D \sim C^{0.27} D~C0.27
batch size: 最好的batch size与loss有 power-law 关系,也受到梯度噪声规模的影响
总的来说,LLM的性能随着模型大小,数据量和计算量的增大平滑,可预测地提升
ofLaws
当性能只受除了层之外的模型参数N,size D,C_min三者之一限制时,自回归的模型的 test loss是可以用一个 power-law预测的 。
power-lawα N , α D , α C m i n \, \, \^{min} αN?,αD?,αCmin? 代表当我们增加模型参数,数据量,计算量时模型性能提升的程度(越大越好),N c , D c , C c m i n N_c, D_c, C_c^{min} Nc?,Dc?,Ccmin?的具体值没有实际意义
batch size与模型在测试集上的表现L L L 之间有一个 power-law
【【论文阅读】Scaling Laws for Neural Language M】当计算量C C C 有限,其他因素不受限时,最佳的N , B , S , D N,B,S,D N,B,S,D 与C C C 的关系是
- 【干货满满系列】安全员ABC证哪个更值钱?哪个更好考? 中国十大资格证书排名
- 10款最好玩的【第一人称射击】游戏,激情突突突! 2017世界十大游戏
- 【美丽中国·乡约江西】鹰潭乡村到底有多美?快来看看吧! 鹰潭有哪些中国之最
- 老照片揭秘上世纪疯狂纹身史 最多纹身吉尼斯记录
- 中国当代文学名著排行榜,中国现当代文学名著导读结业论文
- SeqSlam论文阅读和实验
- 马场角
- 什么牌子的轿车好
- 皇城艺术馆
- 德克德家