大模型 MoE 负载均衡踩坑记录

最近在做大模型 MoE 负载均衡的优化。本来同事做了很多工作了，但是效果不理想，峰均比 1.7。

我拿到任务，检查了测试集和代码，测试集和平均值的 KL 散度已经很低了（小于 0.05，说明数据相关性很高），但峰均比还是 1.7，看起来很反直觉。

于是问了 GPT。

GPT 解释了 KL 散度衡量的是均匀性，峰均比衡量极值，前者不能反应后者。同时总结了峰均比公式 $\text{PAPR}=1+\sqrt{\frac{2N\log N}{T}}$ ，N 是 rank 数，T 是分发的总 token 数，算出来 1.7 就是理论值。

这个公式确实有点说法，拟合得很好，但我数学不好看不懂为什么。

而且我们一开始方向就不对，我们一直想办法增加物理专家数，公式却告诉我们这个影响不大。

这也算是一次知识欠缺导致的踩坑经历吧。