Interspeech2019 Yomikai：SpecAugment

Slide 1

Slide 1 text

SpecAugment: A simple data augmentation method for automatic speech recognition 発表者：篠原雄介 Interspeech2019＆サテライト論文読み会＠ソニーシティ大崎 2019年11月24日 1

Slide 2

Slide 2 text

自己紹介 • 氏名 • 篠原雄介（しのはらゆうすけ） • 略歴 • 大学時代は、パターン認識・コンピュータビジョンの研究 • 東大工/機情（’98～’02）、東大院情理/知能機械（’02～’04） • 就職してからは、15年間くらいずっと音声認識の研究開発 • 東芝研究開発センタ（’04～’17）、NTT MD研（’17～現在） • 専門分野 • 音声認識（とくに音響モデル）、機械学習の音声への応用 2

Slide 3

Slide 3 text

論文概要 • タイトル • SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition (Google Brain) • 概要 • シンプルなデータ拡張法 “SpecAugment” を提案 • スペクトログラム上で一部の周波数・時間をマスキングするだけ • 複数の音声認識タスクで SOTA を更新 • LibriSpeech: WER 5.8%（従来SOTA 7.5%) • Switchboard: WER 6.8%（従来SOTA 8.3%) • 所感 • IS2019の音声認識系で最も注目された論文の一つ（※個人の感想です） • 広く利用されつつあり今後標準的になるかも（半年間で被引用数70超） 3

Slide 4

Slide 4 text

背景：深層学習に基づく音声認識 • 深層学習により音声認識の精度が飛躍的に向上 • 様々なモデルが登場：DNN, CNN, RNN, end-to-end (LAS) • しかし学習データに overfit（過学習）しやすいため、大規模な学習データが必要 4

Slide 5

Slide 5 text

従来法：データ拡張による精度向上 • データ拡張（data augmentation）による学習データの増量が、音声認識精度の向上に有効 • 雑音・残響の重畳 • 話速の摂動 [Kanda+ 2013] • 声道長の摂動 [Jaitly+ 2013] • ルームシミュレータの利用 [Kim+ 2017] • etc • 従来のデータ拡張法の殆どは音声波形の加工によるもの • 計算が重いなどの課題。音声認識の精度的にも改善余地あり。 5

Slide 6

Slide 6 text

提案法：SpecAugment • 波形ではなくスペクトログラムを直接加工する • スペクトログラムを画像のように加工してデータを拡張 • コンピュータビジョンでの成功に inspire されたアイデア • スペクトログラムを３つの方法で加工： • ①時間伸縮、②周波数マスキング、③時間マスキング • シンプルで計算が軽いだけでなく驚くほど認識精度向上に有効 6

Slide 7

Slide 7 text

SpecAugment：手法概要 • 対数メルスペクトログラムを直接加工してデータを拡張 • 以下の３つの要因に対する頑健性を向上させたい • 音声の時間方向への伸び縮み • 周波数情報の部分的な欠損 • 時間方向の一部のセグメントの欠損 • 上記３要因に対応する３つの加工を用いる • 加工①：時間伸縮 • 加工②：周波数マスキング • 加工③：時間マスキング 7

Slide 8

Slide 8 text

加工①：時間伸縮 1. スペクトログラムのx軸上で1点（制御点）を選択する • ただしこの点は x 軸の [W, τ-W] から無作為に選択。Wはパラメータ（典型値 W=80）、τ は入力音声のフレーム数 2. 制御点がx軸上で距離 w だけ動くようにスペクトログラムを時間伸縮させる • ただし距離 w は [-W, W] から無作為に選択。２．制御点がx軸上で距離wだけ移動するようにスペクトログラム全体を時間伸縮１．x軸状で1点（制御点）を選択 w x x 0 τ 8

Slide 9

Slide 9 text

加工②：周波数マスキング • 周波数上の連続するf個のチャネルを無作為にマスキング • 具体的にはチャネル [f0, f0 + f) をマスキング • f は [0, F] から無作為に選択。Fはパラメータ（典型値 F=27） • 下限チャネル f0 は [0, ν-f) から無作為に選択。νはチャネル数（ν=80） f0 f0 + f ν 0 チャンネル [f0, f0 + f] をマスキング 9

Slide 10

Slide 10 text

加工③：時間マスキング • 時間軸上で連続する t フレームを無作為にマスキング • 具体的にはフレーム [t0, t0 + t) をマスキング • t は [0, T] から無作為に選択。Tはパラメータ（典型値 T=100） • t0 は [0, τ-t) から無作為に選択。τは入力フレーム数。 t0 t0 + t 0 τ 10

Slide 11

Slide 11 text

３つの加工の組み合わせ • ３つの加工（時間伸縮、周波数マスキング、時間マスキング）を組み合わせてスペクトログラムを加工する • 複数の周波数マスク・時間マスクの適用も可能 • 実験では、周波数マスク1～2個・時間マスク1～2個で評価 11

Slide 12

Slide 12 text

データ加工のポリシー（４種類） • 各データセットに対して人手でポリシーを設計 • LibriSpeech: Basic (LB) と Double (LD) • Switchboard: Mild (SM) と Strong (SS) 12 ※m_F は周波数マスクの数、m_Tは時間マスクの数

Slide 13

Slide 13 text

モデル：LAS (Listen-Attend-Spell) • LAS モデルを用いて end-to-end 音声認識を実行 • End-to-end 音声認識の代表的なモデル • 注意機構付き sequence-to-sequence モデル • 入力特徴系列 x を出力トークン系列 y に変換 • LAS のサイズを LAS-d-w と表記 • 入力部 CNN 2層 • Encoder d層のBLSTM（各層w素子） • Decoder 2層のRNN（各層w素子） • 出力は WPM (word-piece model)を使用 • 言語モデルとの shallow fusion • 探索中に次のトークン y* を LAS モデルと言語モデルのスコアを併用して決定 13

Slide 14

Slide 14 text

学習率スケジュール（３種類） • ベーシックなものから、じっくり学習するものまで、３種類のスケジュールを使用 14 ステップ数学習率 0 s noise s r s i s f

Slide 15

Slide 15 text

実験 • ２つの音声認識タスクで WER (Word Error Rate) を評価 • LibriSpeech 960h、Switchboard 300h • LASの設定 • LASのサイズ： LAS-4-1024、LAS-6-1024、LAS-6-1280 • WPMのトークン数：LibriSpeech 16k、Switchboard 1k • データ拡張ポリシー： • LibriSpeech Basic (LB)/Double (LD), Switchboard Mild (SM)/Strong (SS) ※データの加工が LB/SM は穏やか、 LD/SS はキツめ • 学習率スケジュール： • B(asic), D(ouble), L(ong) ※学習時間が B(短い)・D(中くらい)・L(長い) • 言語モデル（shallow fusion）：有／無を評価 • ビーム探索（ビーム幅 8） 15

Slide 16

Slide 16 text

結果：データ拡張で認識誤りが大幅減・タスク：LibriSpeech 960h ・言語モデル（shallow fusion）なし 16

Slide 17

Slide 17 text

LibriSpeech 960h での評価結果の詳細（論文のTable 2） 17

Slide 18

Slide 18 text

結果：LibriSpeechタスクでSOTA 言語モデル（shallow fusion）あり 18

Slide 19

Slide 19 text

結果：SwitchboardタスクでもSOTA 言語モデル（shallow fusion）あり 19

Slide 20

Slide 20 text

結果：LMなしでもSOTA 20

Slide 21

Slide 21 text

考察①：どの加工が効いてるのか？ • 加工①（時間伸縮）は、無くても問題なさそう • 加工②（周波数マスキング）と加工③（時間マスキング）は、無いと精度が大きく劣化する 21 ①不使用 ①②③使用 ②不使用 ③不使用

Slide 22

Slide 22 text

考察②：Over-fittingからUnder-fittingへ • データ拡張により、over-fitな問題をunder-fitな問題へ変換 • 下図にも示すとおり over-fit から under-fit になっている • Under-fit な問題になったことで、より大きなモデルを、より長いスケジュールで学習することで、さらに性能を伸ばすことが可能になった LAS-6-1280 on LibriSpeech with pol LD, sch D 22

Slide 23

Slide 23 text

まとめ • SpecAugment によるデータ拡張を提案。音声認識精度が大幅に向上することを示した • LAS による end-to-end 音声認識においてシンプルなデータ拡張を用いることで、HMM-hybrid を含む従来システムの性能を上回り、2つの音声認識タスク（LibriSpeech, Switchboard）で SOTA を更新した 23

Slide 24

Slide 24 text

画像の出典 • SpecAugment (Google AI Blog) • https://ai.googleblog.com/2019/04/specaugment-new-data- augmentation.html 24