in Deep Learning: Pruning and growth for efficient inference and training in neural networks] GPUの高速化のためにsparseモデルを使うのは難しい 問題2: 学習が不安定になりやすい [ST-MoE: Designing Stable and Transferable Sparse Expert Models] 推論の効率化に使われることが多かった Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity loss