Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] wav2vec 2.0: A Framework for Self-Superv...
Search
jumon
June 12, 2021
Research
2.3k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[論文紹介] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
jumon
June 12, 2021
Other Decks in Research
See All in Research
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
450
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.4k
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.5k
typst の使い方:言語学を研究する学生のために
gitomochang
0
460
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
120
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
480
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
1.2k
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
3.8k
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
300
LLMアプリケーションの透明性について
fufufukakaka
0
240
Harness Engineering and Al Agent
kzinmr
3
1.7k
CVPR2026論文紹介_VLMにとって良いvision encoderとは何か?Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance
kobayashi31
1
140
Featured
See All Featured
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
A Soul's Torment
seathinner
6
3k
Claude Code のすすめ
schroneko
67
230k
Mind Mapping
helmedeiros
PRO
1
260
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
850
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Between Models and Reality
mayunak
4
340
For a Future-Friendly Web
brad_frost
183
10k
We Are The Robots
honzajavorek
0
250
Transcript
1 野崎 樹⽂(Jumon Nozaki) 2021 年 6 ⽉ 9 ⽇
研究室輪講 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations [Baevski et al. NeurIPS2020] 京都⼤学 ⾳声メディア研究室 修⼠⼀回⽣
研究概要 • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • ⾃⼰教師あり学習を⾏った wav2vec 2.0
をラベル付きデータで ファインチューニングすることで⾼い⾳声認識精度を達成 • Librispeech コーパスのわずか 10 分の教師データで学習し, 単語誤り率 4.8% の認識精度 2
研究背景 • 学習データを減らしたい • ディープラーニングの学習には⼤量のデータが必要 • 世界の多くの⾔語では学習に⼗分な量のデータの確保は困難 Ø ラベルなしデータから汎⽤的な表現を学習する⾃⼰教師あり学習へ •
⾃⼰教師あり学習の興隆 q ⾃然⾔語処理 • BERT [Delvin+, 2018], GPT-2 [Radford+, 2018] q コンピュータビジョン [Henfaff+, 2019] q ⾳声 • wav2vec [Schneider+, 2019], vq-wav2vec [Baevski+, 2020] Ø よりよい⾃⼰教師あり学習へ 3
wav2vec 2.0 モデル概観 • ⼊⼒ ⾳声波形 • 3 つのモジュール •
Feature encoder • Quantization module • Transformer • 事前学習 contrastive learning (対照学習) 4
モデル - Feature encoder • ⼊⼒ • 平均 0 分散
1 に標準化された⽣の⾳声波形 • モデル • 7 層の CNN ⾳声波形 を⻑さ のベクトル系列 に変換 • 約 20ms ごとのフレームで、1 フレームが 25ms の受容野を持つ 5
モデル - Quantization module • Feature encoder の出⼒を離散化 • •
対照学習のターゲットとして⽤いられる • 𝑉 個のエントリ 𝒆 を含むコードブック 𝑔 から 1 つエントリを選ぶ • 実際は 𝐺 個のコードブックから 1 つずつエントリを選び結合 6 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453
モデル - Quantization module – Gumbel-Softmax • Gumbel-Softmax [Jang+, 2016]
の使⽤ • 微分可能な形でコードブックからのサンプリングを⾏う • Feature encoder の出⼒ 𝑧 を線形層で に変換(𝑉: エントリ数) • 学習時はエントリ 𝑗 を選ぶ確率 を以下の様に求める • : (0, 1) の⼀様分布からのサンプル • : softmax 温度, ハイパーパラメータ • forward 時は の argmax をとる backward 時は で勾配を近似 ( : one-hot vector) = straight-through estimator 7 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453 ,
モデル - Transformer • 系列全体を考慮した表現を得る • Transformer Encoder を⽤いる •
⼊⼒の⼀部はマスクされ、マスクされた箇所に 対して対照学習が⾏われる 8
学習 - pre-training • ⽬的関数 : Contrastive Loss : Diversity
Loss : ハイパーパラメータ 9
学習 - pre-training – Contrastive Loss • 対照学習 • マスクされた箇所の出⼒
を Ø 対応する (= 正例)に近づける Ø 同発話の他の箇所からサンプリングされた 𝐾 個の (= 負例)から遠ざける 10 : コサイン類似度 : 正例と 𝐾 個の負例の集合 : softmax の温度 (ハイパーパラメータ)
学習 - pre-training – Diversity Loss • Diversity Loss •
コードブックのエントリの⼀部しか 使⽤されないことを避ける • コードブック 𝑔 の 𝑉 個のエントリが同様に 使われるように Ø エントリが選ばれる確率分布のエントロピーを最⼤化 11 : コードブック 𝑔 のエントリ 𝑣 が選ばれる確率のバッチ内平均 𝐺 : コードブックの数
学習 - Fine-tuning • ⾳声認識タスクにファインチューニング • Transformer の最終出⼒に線形層を加えて CTC 誤差関数で学習
• Librispeech の実験では語彙として アルファベットを使⽤ 12
実験 – データセット • 事前学習 • ⾳声のみを使⽤(ラベルは使わない) • データ量の異なる 2
パターンの設定 • Librispeech (960 時間) • LisbriVox (約 60,000 時間) • ファインチューニング • ⾳声とラベルを使⽤ • データ量の異なる 5 パターンの Librispeech サブセット • 960 時間, 100 時間, 10 時間, 1 時間, 10 分 13
実験 – 詳細 • モデル設定 • BASE: Transformer 12 層,
パラメータ数 95 M • LARGE: Transformer 24 層, パラメータ数 317 M • 事前学習時間 (Librispeech 960h の場合) • BASE: 64 V100 GPUs, 1.6 ⽇ • LARGE: 128 V100 GPUs, 2.3 ⽇ • (主要な) ハイパーパラメータ • 対照学習の負例の数 𝐾 = 100 • コードブックの数 G = 2, エントリの数 𝑉 = 320 • 推論 • CTC の予測と⾔語モデル (4-gram or Transformer) を shallow fusion • ⾔語モデルは Librispeech LM コーパスで学習 14 = 𝒒 𝑔 [Baevski+, 2020] https://arxiv.org/abs/1910.05453
実験 – 結果 – Low-Resource setting • ⼤規模な事前学習 + Transformer
LM • 10 分の教師データで学習し, 単語誤り率 4.8/8.2 % • ⾔語モデルなしでは精度は低い ことに注意 * 10h, 100h の設定の実験結果は論⽂参照 * 表の略称 15 LM: Language Model Transf.: Transformer LS-960: Librispeech 960 hours LV-60k: LibriVox 60,000 hours
実験 – 結果 – High-Resource setting • 事前学習 + 960h
教師データ • 既存の教師あり⼿法より ⾼い精度 • 既存の半教師あり⼿法に 勝るとも劣らない精度 Ø wav2vec 2.0 はモデル構造が Seq2Seq ではないことを 考慮するとすごい 16 LM: Language Model Transf.: Transformer LS-960: Librispeech 960 hours LV-60k: LibriVox 60,000 hours CLM: CNN-base LM 既 存 ⼿ 法
まとめ • ⾳声データに対する新たな⾃⼰教師あり学習の枠組みである wav2vec 2.0 を提案 • 事前学習では離散化した⾳声をターゲットとした対照学習を⾏う • 事前学習後に
CTC Loss でファインチューニングすることで ⾼い⾳声認識精度を達成 • Librispeech コーパスのわずか 10 分の教師データで学習し, 単語誤り率 4.8% の認識精度 • ⼤量の教師データを⽤いた場合も事前学習の効果がある 17