Qwen3-MoE-30B-A3B模型EP+FSDP2并行方案
以VeOmni训练框架为例,介绍Qwen3-MoE-30B-A3B模型并行训练方法,参考代码仓库中文档。
Qwen3-MoE-30B-A3B模型该模型核心参数为:128 个专家、隐藏层维度 2048、中间层维度 768,其 MoE 核心的专家权重张量形状固定为:
门控投影(Gate project
...