Stanford: MegaBlocks -- Efficient Sparse Training with Mixture-of-Experts

本文最后更新于 2026年4月7日 下午


Stanford: MegaBlocks -- Efficient Sparse Training with Mixture-of-Experts
http://zaddle55.github.io/2026/04/04/megablocks/
作者
Zaddle
发布于
2026年4月5日
更新于
2026年4月7日
许可协议