Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Interspeech2019 Yomikai:SpecAugment

Interspeech2019 Yomikai:SpecAugment

Interspeech2019 &サテライト論文読み会
ソニーシティー大崎、2019年11月24日
#interspeech2019jp

【紹介する論文】
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition (Google Brain)

Yusuke Shinohara

November 24, 2019
Tweet

Other Decks in Research

Transcript

  1. SpecAugment: A simple data augmentation method for automatic speech recognition

    発表者:篠原 雄介 Interspeech2019&サテライト論文読み会 @ソニーシティ大崎 2019年11月24日 1
  2. 自己紹介 • 氏名 • 篠原 雄介(しのはら ゆうすけ) • 略歴 •

    大学時代は、パターン認識・コンピュータビジョンの研究 • 東大 工/機情(’98~’02)、東大院 情理/知能機械(’02~’04) • 就職してからは、15年間くらいずっと音声認識の研究開発 • 東芝 研究開発センタ(’04~’17)、NTT MD研(’17~現在) • 専門分野 • 音声認識(とくに音響モデル)、機械学習の音声への応用 2
  3. 論文概要 • タイトル • SpecAugment: A Simple Data Augmentation Method

    for Automatic Speech Recognition (Google Brain) • 概要 • シンプルなデータ拡張法 “SpecAugment” を提案 • スペクトログラム上で一部の周波数・時間をマスキングするだけ • 複数の音声認識タスクで SOTA を更新 • LibriSpeech: WER 5.8%(従来SOTA 7.5%) • Switchboard: WER 6.8%(従来SOTA 8.3%) • 所感 • IS2019の音声認識系で最も注目された論文の一つ(※個人の感想です) • 広く利用されつつあり今後標準的になるかも(半年間で被引用数70超) 3
  4. 従来法:データ拡張による精度向上 • データ拡張(data augmentation)による学習データの増量が、 音声認識精度の向上に有効 • 雑音・残響の重畳 • 話速の摂動 [Kanda+

    2013] • 声道長の摂動 [Jaitly+ 2013] • ルームシミュレータの利用 [Kim+ 2017] • etc • 従来のデータ拡張法の殆どは音声波形の加工によるもの • 計算が重いなどの課題。音声認識の精度的にも改善余地あり。 5
  5. 提案法:SpecAugment • 波形ではなくスペクトログラムを直接加工する • スペクトログラムを画像のように加工してデータを拡張 • コンピュータビジョンでの成功に inspire されたアイデア •

    スペクトログラムを3つの方法で加工: • ①時間伸縮、②周波数マスキング、③時間マスキング • シンプルで計算が軽いだけでなく驚くほど認識精度向上に有効 6
  6. SpecAugment:手法概要 • 対数メルスペクトログラムを直接加工してデータを拡張 • 以下の3つの要因に対する頑健性を向上させたい • 音声の時間方向への伸び縮み • 周波数情報の部分的な欠損 •

    時間方向の一部のセグメントの欠損 • 上記3要因に対応する3つの加工を用いる • 加工①:時間伸縮 • 加工②:周波数マスキング • 加工③:時間マスキング 7
  7. 加工①:時間伸縮 1. スペクトログラムのx軸上で1点(制御点)を選択する • ただしこの点は x 軸の [W, τ-W] から無作為に選択。Wはパラメータ(典型値

    W=80)、τ は入力音声のフレーム数 2. 制御点がx軸上で距離 w だけ動くようにスペクトログラムを時間伸縮させる • ただし距離 w は [-W, W] から無作為に選択。 2.制御点がx軸上で距離wだけ移動するように スペクトログラム全体を時間伸縮 1.x軸状で1点(制御点)を選択 w x x 0 τ 8
  8. 加工②:周波数マスキング • 周波数上の連続するf個のチャネルを無作為にマスキング • 具体的にはチャネル [f0, f0 + f) をマスキング

    • f は [0, F] から無作為に選択。Fはパラメータ(典型値 F=27) • 下限チャネル f0 は [0, ν-f) から無作為に選択。νはチャネル数(ν=80) f0 f0 + f ν 0 チャンネル [f0, f0 + f] をマスキング 9
  9. 加工③:時間マスキング • 時間軸上で連続する t フレームを無作為にマスキング • 具体的にはフレーム [t0, t0 +

    t) をマスキング • t は [0, T] から無作為に選択。Tはパラメータ(典型値 T=100) • t0 は [0, τ-t) から無作為に選択。τは入力フレーム数。 t0 t0 + t 0 τ 10
  10. データ加工のポリシー(4種類) • 各データセットに対して人手でポリシーを設計 • LibriSpeech: Basic (LB) と Double (LD)

    • Switchboard: Mild (SM) と Strong (SS) 12 ※m_F は周波数マスクの数、m_Tは時間マスクの数
  11. モデル:LAS (Listen-Attend-Spell) • LAS モデルを用いて end-to-end 音声認識 を実行 • End-to-end

    音声認識の代表的なモデル • 注意機構付き sequence-to-sequence モデル • 入力特徴系列 x を出力トークン系列 y に変換 • LAS のサイズを LAS-d-w と表記 • 入力部 CNN 2層 • Encoder d層のBLSTM(各層w素子) • Decoder 2層のRNN(各層w素子) • 出力は WPM (word-piece model)を使用 • 言語モデルとの shallow fusion • 探索中に次のトークン y* を LAS モデル と言語モデルの スコアを併用して決定 13
  12. 実験 • 2つの音声認識タスクで WER (Word Error Rate) を評価 • LibriSpeech

    960h、Switchboard 300h • LASの設定 • LASのサイズ: LAS-4-1024、LAS-6-1024、LAS-6-1280 • WPMのトークン数:LibriSpeech 16k、Switchboard 1k • データ拡張ポリシー: • LibriSpeech Basic (LB)/Double (LD), Switchboard Mild (SM)/Strong (SS) ※データの加工が LB/SM は穏やか、 LD/SS はキツめ • 学習率スケジュール: • B(asic), D(ouble), L(ong) ※学習時間が B(短い)・D(中くらい)・L(長い) • 言語モデル(shallow fusion):有/無 を評価 • ビーム探索(ビーム幅 8) 15
  13. 考察②:Over-fittingからUnder-fittingへ • データ拡張により、over-fitな問題をunder-fitな問題へ変換 • 下図にも示すとおり over-fit から under-fit になっている •

    Under-fit な問題になったことで、より大きなモデルを、より長いスケ ジュールで学習することで、さらに性能を伸ばすことが可能になった LAS-6-1280 on LibriSpeech with pol LD, sch D 22
  14. まとめ • SpecAugment によるデータ拡張を提案。音声認識精度が大幅 に向上することを示した • LAS による end-to-end 音声認識においてシンプルなデータ拡

    張を用いることで、HMM-hybrid を含む従来システムの性能を 上回り、2つの音声認識タスク(LibriSpeech, Switchboard)で SOTA を更新した 23