Interspeech2019 Yomikai：SpecAugment

SpecAugment: A simple data augmentation method for automatic speech recognition
発表者：篠原雄介 Interspeech2019＆サテライト論文読み会＠ソニーシティ大崎 2019年11月24日 1

自己紹介 • 氏名 • 篠原雄介（しのはらゆうすけ） • 略歴 •
大学時代は、パターン認識・コンピュータビジョンの研究 • 東大工/機情（’98～’02）、東大院情理/知能機械（’02～’04） • 就職してからは、15年間くらいずっと音声認識の研究開発 • 東芝研究開発センタ（’04～’17）、NTT MD研（’17～現在） • 専門分野 • 音声認識（とくに音響モデル）、機械学習の音声への応用 2

論文概要 • タイトル • SpecAugment: A Simple Data Augmentation Method
for Automatic Speech Recognition (Google Brain) • 概要 • シンプルなデータ拡張法 “SpecAugment” を提案 • スペクトログラム上で一部の周波数・時間をマスキングするだけ • 複数の音声認識タスクで SOTA を更新 • LibriSpeech: WER 5.8%（従来SOTA 7.5%) • Switchboard: WER 6.8%（従来SOTA 8.3%) • 所感 • IS2019の音声認識系で最も注目された論文の一つ（※個人の感想です） • 広く利用されつつあり今後標準的になるかも（半年間で被引用数70超） 3

背景：深層学習に基づく音声認識 • 深層学習により音声認識の精度が飛躍的に向上 • 様々なモデルが登場：DNN, CNN, RNN, end-to-end (LAS) •
しかし学習データに overfit（過学習）しやすいため、大規模な学習データが必要 4

従来法：データ拡張による精度向上 • データ拡張（data augmentation）による学習データの増量が、音声認識精度の向上に有効 • 雑音・残響の重畳 • 話速の摂動 [Kanda+
2013] • 声道長の摂動 [Jaitly+ 2013] • ルームシミュレータの利用 [Kim+ 2017] • etc • 従来のデータ拡張法の殆どは音声波形の加工によるもの • 計算が重いなどの課題。音声認識の精度的にも改善余地あり。 5

提案法：SpecAugment • 波形ではなくスペクトログラムを直接加工する • スペクトログラムを画像のように加工してデータを拡張 • コンピュータビジョンでの成功に inspire されたアイデア •
スペクトログラムを３つの方法で加工： • ①時間伸縮、②周波数マスキング、③時間マスキング • シンプルで計算が軽いだけでなく驚くほど認識精度向上に有効 6

SpecAugment：手法概要 • 対数メルスペクトログラムを直接加工してデータを拡張 • 以下の３つの要因に対する頑健性を向上させたい • 音声の時間方向への伸び縮み • 周波数情報の部分的な欠損 •
時間方向の一部のセグメントの欠損 • 上記３要因に対応する３つの加工を用いる • 加工①：時間伸縮 • 加工②：周波数マスキング • 加工③：時間マスキング 7

加工①：時間伸縮 1. スペクトログラムのx軸上で1点（制御点）を選択する • ただしこの点は x 軸の [W, τ-W] から無作為に選択。Wはパラメータ（典型値
W=80）、τ は入力音声のフレーム数 2. 制御点がx軸上で距離 w だけ動くようにスペクトログラムを時間伸縮させる • ただし距離 w は [-W, W] から無作為に選択。２．制御点がx軸上で距離wだけ移動するようにスペクトログラム全体を時間伸縮１．x軸状で1点（制御点）を選択 w x x 0 τ 8

加工②：周波数マスキング • 周波数上の連続するf個のチャネルを無作為にマスキング • 具体的にはチャネル [f0, f0 + f) をマスキング
• f は [0, F] から無作為に選択。Fはパラメータ（典型値 F=27） • 下限チャネル f0 は [0, ν-f) から無作為に選択。νはチャネル数（ν=80） f0 f0 + f ν 0 チャンネル [f0, f0 + f] をマスキング 9

加工③：時間マスキング • 時間軸上で連続する t フレームを無作為にマスキング • 具体的にはフレーム [t0, t0 +
t) をマスキング • t は [0, T] から無作為に選択。Tはパラメータ（典型値 T=100） • t0 は [0, τ-t) から無作為に選択。τは入力フレーム数。 t0 t0 + t 0 τ 10

３つの加工の組み合わせ • ３つの加工（時間伸縮、周波数マスキング、時間マスキング）を組み合わせてスペクトログラムを加工する • 複数の周波数マスク・時間マスクの適用も可能 • 実験では、周波数マスク1～2個・時間マスク1～2個で評価 11

データ加工のポリシー（４種類） • 各データセットに対して人手でポリシーを設計 • LibriSpeech: Basic (LB) と Double (LD)
• Switchboard: Mild (SM) と Strong (SS) 12 ※m_F は周波数マスクの数、m_Tは時間マスクの数

モデル：LAS (Listen-Attend-Spell) • LAS モデルを用いて end-to-end 音声認識を実行 • End-to-end
音声認識の代表的なモデル • 注意機構付き sequence-to-sequence モデル • 入力特徴系列 x を出力トークン系列 y に変換 • LAS のサイズを LAS-d-w と表記 • 入力部 CNN 2層 • Encoder d層のBLSTM（各層w素子） • Decoder 2層のRNN（各層w素子） • 出力は WPM (word-piece model)を使用 • 言語モデルとの shallow fusion • 探索中に次のトークン y* を LAS モデルと言語モデルのスコアを併用して決定 13

学習率スケジュール（３種類） • ベーシックなものから、じっくり学習するものまで、３種類のスケジュールを使用 14 ステップ数学習率 0 s noise
s r s i s f

実験 • ２つの音声認識タスクで WER (Word Error Rate) を評価 • LibriSpeech
960h、Switchboard 300h • LASの設定 • LASのサイズ： LAS-4-1024、LAS-6-1024、LAS-6-1280 • WPMのトークン数：LibriSpeech 16k、Switchboard 1k • データ拡張ポリシー： • LibriSpeech Basic (LB)/Double (LD), Switchboard Mild (SM)/Strong (SS) ※データの加工が LB/SM は穏やか、 LD/SS はキツめ • 学習率スケジュール： • B(asic), D(ouble), L(ong) ※学習時間が B(短い)・D(中くらい)・L(長い) • 言語モデル（shallow fusion）：有／無を評価 • ビーム探索（ビーム幅 8） 15

結果：データ拡張で認識誤りが大幅減・タスク：LibriSpeech 960h ・言語モデル（shallow fusion）なし 16

LibriSpeech 960h での評価結果の詳細（論文のTable 2） 17

結果：LibriSpeechタスクでSOTA 言語モデル（shallow fusion）あり 18

結果：SwitchboardタスクでもSOTA 言語モデル（shallow fusion）あり 19

結果：LMなしでもSOTA 20

考察①：どの加工が効いてるのか？ • 加工①（時間伸縮）は、無くても問題なさそう • 加工②（周波数マスキング）と加工③（時間マスキング）は、無いと精度が大きく劣化する 21 ①不使用 ①②③使用 ②不使用
③不使用

考察②：Over-fittingからUnder-fittingへ • データ拡張により、over-fitな問題をunder-fitな問題へ変換 • 下図にも示すとおり over-fit から under-fit になっている •
Under-fit な問題になったことで、より大きなモデルを、より長いスケジュールで学習することで、さらに性能を伸ばすことが可能になった LAS-6-1280 on LibriSpeech with pol LD, sch D 22

まとめ • SpecAugment によるデータ拡張を提案。音声認識精度が大幅に向上することを示した • LAS による end-to-end 音声認識においてシンプルなデータ拡
張を用いることで、HMM-hybrid を含む従来システムの性能を上回り、2つの音声認識タスク（LibriSpeech, Switchboard）で SOTA を更新した 23

画像の出典 • SpecAugment (Google AI Blog) • https://ai.googleblog.com/2019/04/specaugment-new-data- augmentation.html 24

Interspeech2019 Yomikai：SpecAugment

Interspeech2019 Yomikai：SpecAugment

Yusuke Shinohara

Other Decks in Research

Featured

Transcript

SpecAugment: A simple data augmentation method for automatic speech recognition

自己紹介 • 氏名 • 篠原雄介（しのはらゆうすけ） • 略歴 •

論文概要 • タイトル • SpecAugment: A Simple Data Augmentation Method

背景：深層学習に基づく音声認識 • 深層学習により音声認識の精度が飛躍的に向上 • 様々なモデルが登場：DNN, CNN, RNN, end-to-end (LAS) •

従来法：データ拡張による精度向上 • データ拡張（data augmentation）による学習データの増量が、音声認識精度の向上に有効 • 雑音・残響の重畳 • 話速の摂動 [Kanda+

提案法：SpecAugment • 波形ではなくスペクトログラムを直接加工する • スペクトログラムを画像のように加工してデータを拡張 • コンピュータビジョンでの成功に inspire されたアイデア •

SpecAugment：手法概要 • 対数メルスペクトログラムを直接加工してデータを拡張 • 以下の３つの要因に対する頑健性を向上させたい • 音声の時間方向への伸び縮み • 周波数情報の部分的な欠損 •

加工①：時間伸縮 1. スペクトログラムのx軸上で1点（制御点）を選択する • ただしこの点は x 軸の [W, τ-W] から無作為に選択。Wはパラメータ（典型値

加工②：周波数マスキング • 周波数上の連続するf個のチャネルを無作為にマスキング • 具体的にはチャネル [f0, f0 + f) をマスキング

加工③：時間マスキング • 時間軸上で連続する t フレームを無作為にマスキング • 具体的にはフレーム [t0, t0 +

データ加工のポリシー（４種類） • 各データセットに対して人手でポリシーを設計 • LibriSpeech: Basic (LB) と Double (LD)

モデル：LAS (Listen-Attend-Spell) • LAS モデルを用いて end-to-end 音声認識を実行 • End-to-end

学習率スケジュール（３種類） • ベーシックなものから、じっくり学習するものまで、３種類のスケジュールを使用 14 ステップ数学習率 0 s noise

実験 • ２つの音声認識タスクで WER (Word Error Rate) を評価 • LibriSpeech

結果：データ拡張で認識誤りが大幅減・タスク：LibriSpeech 960h ・言語モデル（shallow fusion）なし 16

LibriSpeech 960h での評価結果の詳細（論文のTable 2） 17

結果：LibriSpeechタスクでSOTA 言語モデル（shallow fusion）あり 18

結果：SwitchboardタスクでもSOTA 言語モデル（shallow fusion）あり 19

結果：LMなしでもSOTA 20

考察①：どの加工が効いてるのか？ • 加工①（時間伸縮）は、無くても問題なさそう • 加工②（周波数マスキング）と加工③（時間マスキング）は、無いと精度が大きく劣化する 21 ①不使用 ①②③使用 ②不使用

考察②：Over-fittingからUnder-fittingへ • データ拡張により、over-fitな問題をunder-fitな問題へ変換 • 下図にも示すとおり over-fit から under-fit になっている •

まとめ • SpecAugment によるデータ拡張を提案。音声認識精度が大幅に向上することを示した • LAS による end-to-end 音声認識においてシンプルなデータ拡

画像の出典 • SpecAugment (Google AI Blog) • https://ai.googleblog.com/2019/04/specaugment-new-data- augmentation.html 24