大模型 MoE 负载均衡踩坑记录
最近在做大模型 MoE 负载均衡的优化。本来同事做了很多工作了,但是效果不理想,峰均比 1.7。
我拿到任务,检查了测试集和代码,测试集和平均值的 KL 散度已经很低了(小于 0.05,说明数据相关性很高),但峰均比还是 1.7,看起来很反直觉。
于是问了 GPT。
GPT 解释了 KL 散度衡量的是均匀性,峰均比衡量极值,前者不能反应后者。同时总结了峰均比公式 ,N 是 rank 数,T 是分发的总 token 数,算出来 1.7 就是理论值。
这个公式确实有点说法,拟合得很好,但我数学不好看不懂为什么。
而且我们一开始方向就不对,我们一直想办法增加物理专家数,公式却告诉我们这个影响不大。
这也算是一次知识欠缺导致的踩坑经历吧。