更新时间:2025-01-17 11:07:17
腾讯混元团队针对大模型训练的成本问题,深入研究了低比特浮点量化训练的规模法则(Scaling Laws)。他们通过366组实验,分析了模型大小、训练数据量、指数位、尾数位和量化粒度等多种因素对训练效果的影响,得出了一套统一的Scaling Law。
研究发现,在任意低精度的浮点数量化训练中,存在“极限效果”,超过特定数据量会导致性能下降。理论上,最佳性价比的浮点数量化训练精度应在4到8比特之间。该研究填补了领域空白,为硬件制造商优化浮点运算能力提供了参考,也为大模型训练的实践提供了清晰方向。