パラメータ数 95 M • LARGE: Transformer 24 層, パラメータ数 317 M • 事前学習時間 (Librispeech 960h の場合) • BASE: 64 V100 GPUs, 1.6 ⽇ • LARGE: 128 V100 GPUs, 2.3 ⽇ • (主要な) ハイパーパラメータ • 対照学習の負例の数 𝐾 = 100 • コードブックの数 G = 2, エントリの数 𝑉 = 320 • 推論 • CTC の予測と⾔語モデル (4-gram or Transformer) を shallow fusion • ⾔語モデルは Librispeech LM コーパスで学習 14 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453