大模型预训练中的通常用什么优化器?

在现有的工作中,大型语言模型的训练普遍采用Adam及其变体AdamW。Adam优化器利用梯度的“动量”来确定参数的更新方向,它通过计算历史更新步骤中梯度的加权平均值来替代当前时刻的梯度,以此缓解由样本随机性引发的损失震荡问题。更进一步,Adam采用自适应的学习率策略,通过对梯度的加权“二阶矩”进行修正(这一过程可以视作使用“标准差”进行“归一化”)来防止梯度过小,进而避免模型陷入难以优化的困境。在大型模型的训练过程中,Adam优化器通常会引入三个超参数,并设置为:\beta _1 = 0.9\beta _2 = 0.95,以及\epsilon = 10^{-8}