腾讯混元发布浮点量化训练新理论，探索大模型训练效能极限

更新时间：2025-01-17 11:07:17

导读腾讯混元团队针对大模型训练的成本问题，深入研究了低比特浮点量化训练的规模法则（Scaling Laws）。他们通过366组实验，分析了模型大小、

腾讯混元团队针对大模型训练的成本问题，深入研究了低比特浮点量化训练的规模法则（Scaling Laws）。他们通过366组实验，分析了模型大小、训练数据量、指数位、尾数位和量化粒度等多种因素对训练效果的影响，得出了一套统一的Scaling Law。

研究发现，在任意低精度的浮点数量化训练中，存在“极限效果”，超过特定数据量会导致性能下降。理论上，最佳性价比的浮点数量化训练精度应在4到8比特之间。该研究填补了领域空白，为硬件制造商优化浮点运算能力提供了参考，也为大模型训练的实践提供了清晰方向。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

猜你喜欢