Stanford: MegaBlocks -- Efficient Sparse Training with Mixture-of-Experts
本文最后更新于 2026年4月7日 下午
Stanford: MegaBlocks -- Efficient Sparse Training with Mixture-of-Experts
http://zaddle55.github.io/2026/04/04/megablocks/
本文最后更新于 2026年4月7日 下午