[論文紹介] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

1 野崎樹⽂（Jumon Nozaki） 2021 年 6 ⽉ 9 ⽇
研究室輪講 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations [Baevski et al. NeurIPS2020] 京都⼤学⾳声メディア研究室修⼠⼀回⽣

研究概要 • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • ⾃⼰教師あり学習を⾏った wav2vec 2.0
をラベル付きデータでファインチューニングすることで⾼い⾳声認識精度を達成 • Librispeech コーパスのわずか 10 分の教師データで学習し, 単語誤り率 4.8% の認識精度 2

研究背景 • 学習データを減らしたい • ディープラーニングの学習には⼤量のデータが必要 • 世界の多くの⾔語では学習に⼗分な量のデータの確保は困難 Ø ラベルなしデータから汎⽤的な表現を学習する⾃⼰教師あり学習へ •
⾃⼰教師あり学習の興隆 q ⾃然⾔語処理 • BERT [Delvin+, 2018], GPT-2 [Radford+, 2018] q コンピュータビジョン [Henfaff+, 2019] q ⾳声 • wav2vec [Schneider+, 2019], vq-wav2vec [Baevski+, 2020] Ø よりよい⾃⼰教師あり学習へ 3

wav2vec 2.0 モデル概観 • ⼊⼒⾳声波形 • 3 つのモジュール •
Feature encoder • Quantization module • Transformer • 事前学習 contrastive learning (対照学習) 4

モデル - Feature encoder • ⼊⼒ • 平均 0 分散
1 に標準化された⽣の⾳声波形 • モデル • 7 層の CNN ⾳声波形を⻑さのベクトル系列に変換 • 約 20ms ごとのフレームで、1 フレームが 25ms の受容野を持つ 5

モデル - Quantization module • Feature encoder の出⼒を離散化 • •
対照学習のターゲットとして⽤いられる • 𝑉 個のエントリ 𝒆 を含むコードブック 𝑔 から 1 つエントリを選ぶ • 実際は 𝐺 個のコードブックから 1 つずつエントリを選び結合 6 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453

モデル - Quantization module – Gumbel-Softmax • Gumbel-Softmax [Jang+, 2016]
の使⽤ • 微分可能な形でコードブックからのサンプリングを⾏う • Feature encoder の出⼒ 𝑧 を線形層でに変換（𝑉: エントリ数） • 学習時はエントリ 𝑗 を選ぶ確率を以下の様に求める • : (0, 1) の⼀様分布からのサンプル • : softmax 温度, ハイパーパラメータ • forward 時はの argmax をとる backward 時はで勾配を近似 ( : one-hot vector) = straight-through estimator 7 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453 ,

モデル - Transformer • 系列全体を考慮した表現を得る • Transformer Encoder を⽤いる •
⼊⼒の⼀部はマスクされ、マスクされた箇所に対して対照学習が⾏われる 8

学習 - pre-training • ⽬的関数 : Contrastive Loss : Diversity
Loss : ハイパーパラメータ 9

学習 - pre-training – Contrastive Loss • 対照学習 • マスクされた箇所の出⼒
を Ø 対応する（= 正例）に近づける Ø 同発話の他の箇所からサンプリングされた 𝐾 個の（= 負例）から遠ざける 10 : コサイン類似度 : 正例と 𝐾 個の負例の集合 : softmax の温度 (ハイパーパラメータ)

学習 - pre-training – Diversity Loss • Diversity Loss •
コードブックのエントリの⼀部しか使⽤されないことを避ける • コードブック 𝑔 の 𝑉 個のエントリが同様に使われるように Ø エントリが選ばれる確率分布のエントロピーを最⼤化 11 : コードブック 𝑔 のエントリ 𝑣 が選ばれる確率のバッチ内平均 𝐺 : コードブックの数

学習 - Fine-tuning • ⾳声認識タスクにファインチューニング • Transformer の最終出⼒に線形層を加えて CTC 誤差関数で学習
• Librispeech の実験では語彙としてアルファベットを使⽤ 12

実験 – データセット • 事前学習 • ⾳声のみを使⽤（ラベルは使わない） • データ量の異なる 2
パターンの設定 • Librispeech (960 時間) • LisbriVox (約 60,000 時間) • ファインチューニング • ⾳声とラベルを使⽤ • データ量の異なる 5 パターンの Librispeech サブセット • 960 時間, 100 時間, 10 時間, 1 時間, 10 分 13

実験 – 詳細 • モデル設定 • BASE: Transformer 12 層,
パラメータ数 95 M • LARGE: Transformer 24 層, パラメータ数 317 M • 事前学習時間 (Librispeech 960h の場合) • BASE: 64 V100 GPUs, 1.6 ⽇ • LARGE: 128 V100 GPUs, 2.3 ⽇ • (主要な) ハイパーパラメータ • 対照学習の負例の数 𝐾 = 100 • コードブックの数 G = 2, エントリの数 𝑉 = 320 • 推論 • CTC の予測と⾔語モデル (4-gram or Transformer) を shallow fusion • ⾔語モデルは Librispeech LM コーパスで学習 14 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453

実験 – 結果 – Low-Resource setting • ⼤規模な事前学習 + Transformer
LM • 10 分の教師データで学習し, 単語誤り率 4.8/8.2 % • ⾔語モデルなしでは精度は低いことに注意 * 10h, 100h の設定の実験結果は論⽂参照 * 表の略称 15 LM: Language Model Transf.: Transformer LS-960: Librispeech 960 hours LV-60k: LibriVox 60,000 hours

実験 – 結果 – High-Resource setting • 事前学習 + 960h
教師データ • 既存の教師あり⼿法より⾼い精度 • 既存の半教師あり⼿法に勝るとも劣らない精度 Ø wav2vec 2.0 はモデル構造が Seq2Seq ではないことを考慮するとすごい 16 LM: Language Model Transf.: Transformer LS-960: Librispeech 960 hours LV-60k: LibriVox 60,000 hours CLM: CNN-base LM 既存⼿法

まとめ • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • 事前学習では離散化した⾳声をターゲットとした対照学習を⾏う • 事前学習後に
CTC Loss でファインチューニングすることで⾼い⾳声認識精度を達成 • Librispeech コーパスのわずか 10 分の教師データで学習し, 単語誤り率 4.8% の認識精度 • ⼤量の教師データを⽤いた場合も事前学習の効果がある 17

[論文紹介] wav2vec 2.0: A Framework for Self-Superv...

[論文紹介] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

jumon

Other Decks in Research

Featured

Transcript

1 野崎樹⽂（Jumon Nozaki） 2021 年 6 ⽉ 9 ⽇

研究概要 • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • ⾃⼰教師あり学習を⾏った wav2vec 2.0

wav2vec 2.0 モデル概観 • ⼊⼒⾳声波形 • 3 つのモジュール •

モデル - Feature encoder • ⼊⼒ • 平均 0 分散

モデル - Quantization module • Feature encoder の出⼒を離散化 • •

モデル - Quantization module – Gumbel-Softmax • Gumbel-Softmax [Jang+, 2016]

モデル - Transformer • 系列全体を考慮した表現を得る • Transformer Encoder を⽤いる •

学習 - pre-training • ⽬的関数 : Contrastive Loss : Diversity

学習 - pre-training – Contrastive Loss • 対照学習 • マスクされた箇所の出⼒

学習 - pre-training – Diversity Loss • Diversity Loss •

学習 - Fine-tuning • ⾳声認識タスクにファインチューニング • Transformer の最終出⼒に線形層を加えて CTC 誤差関数で学習

実験 – データセット • 事前学習 • ⾳声のみを使⽤（ラベルは使わない） • データ量の異なる 2

実験 – 詳細 • モデル設定 • BASE: Transformer 12 層,

実験 – 結果 – Low-Resource setting • ⼤規模な事前学習 + Transformer

実験 – 結果 – High-Resource setting • 事前学習 + 960h

まとめ • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • 事前学習では離散化した⾳声をターゲットとした対照学習を⾏う • 事前学習後に