×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
SpecAugment: A simple data augmentation method for automatic speech recognition 発表者:篠原 雄介 Interspeech2019&サテライト論文読み会 @ソニーシティ大崎 2019年11月24日 1
Slide 2
Slide 2 text
自己紹介 • 氏名 • 篠原 雄介(しのはら ゆうすけ) • 略歴 • 大学時代は、パターン認識・コンピュータビジョンの研究 • 東大 工/機情(’98~’02)、東大院 情理/知能機械(’02~’04) • 就職してからは、15年間くらいずっと音声認識の研究開発 • 東芝 研究開発センタ(’04~’17)、NTT MD研(’17~現在) • 専門分野 • 音声認識(とくに音響モデル)、機械学習の音声への応用 2
Slide 3
Slide 3 text
論文概要 • タイトル • SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition (Google Brain) • 概要 • シンプルなデータ拡張法 “SpecAugment” を提案 • スペクトログラム上で一部の周波数・時間をマスキングするだけ • 複数の音声認識タスクで SOTA を更新 • LibriSpeech: WER 5.8%(従来SOTA 7.5%) • Switchboard: WER 6.8%(従来SOTA 8.3%) • 所感 • IS2019の音声認識系で最も注目された論文の一つ(※個人の感想です) • 広く利用されつつあり今後標準的になるかも(半年間で被引用数70超) 3
Slide 4
Slide 4 text
背景:深層学習に基づく音声認識 • 深層学習により音声認識の精度が飛躍的に向上 • 様々なモデルが登場:DNN, CNN, RNN, end-to-end (LAS) • しかし学習データに overfit(過学習)しやすいため、大規模な 学習データが必要 4
Slide 5
Slide 5 text
従来法:データ拡張による精度向上 • データ拡張(data augmentation)による学習データの増量が、 音声認識精度の向上に有効 • 雑音・残響の重畳 • 話速の摂動 [Kanda+ 2013] • 声道長の摂動 [Jaitly+ 2013] • ルームシミュレータの利用 [Kim+ 2017] • etc • 従来のデータ拡張法の殆どは音声波形の加工によるもの • 計算が重いなどの課題。音声認識の精度的にも改善余地あり。 5
Slide 6
Slide 6 text
提案法:SpecAugment • 波形ではなくスペクトログラムを直接加工する • スペクトログラムを画像のように加工してデータを拡張 • コンピュータビジョンでの成功に inspire されたアイデア • スペクトログラムを3つの方法で加工: • ①時間伸縮、②周波数マスキング、③時間マスキング • シンプルで計算が軽いだけでなく驚くほど認識精度向上に有効 6
Slide 7
Slide 7 text
SpecAugment:手法概要 • 対数メルスペクトログラムを直接加工してデータを拡張 • 以下の3つの要因に対する頑健性を向上させたい • 音声の時間方向への伸び縮み • 周波数情報の部分的な欠損 • 時間方向の一部のセグメントの欠損 • 上記3要因に対応する3つの加工を用いる • 加工①:時間伸縮 • 加工②:周波数マスキング • 加工③:時間マスキング 7
Slide 8
Slide 8 text
加工①:時間伸縮 1. スペクトログラムのx軸上で1点(制御点)を選択する • ただしこの点は x 軸の [W, τ-W] から無作為に選択。Wはパラメータ(典型値 W=80)、τ は入力音声のフレーム数 2. 制御点がx軸上で距離 w だけ動くようにスペクトログラムを時間伸縮させる • ただし距離 w は [-W, W] から無作為に選択。 2.制御点がx軸上で距離wだけ移動するように スペクトログラム全体を時間伸縮 1.x軸状で1点(制御点)を選択 w x x 0 τ 8
Slide 9
Slide 9 text
加工②:周波数マスキング • 周波数上の連続するf個のチャネルを無作為にマスキング • 具体的にはチャネル [f0, f0 + f) をマスキング • f は [0, F] から無作為に選択。Fはパラメータ(典型値 F=27) • 下限チャネル f0 は [0, ν-f) から無作為に選択。νはチャネル数(ν=80) f0 f0 + f ν 0 チャンネル [f0, f0 + f] をマスキング 9
Slide 10
Slide 10 text
加工③:時間マスキング • 時間軸上で連続する t フレームを無作為にマスキング • 具体的にはフレーム [t0, t0 + t) をマスキング • t は [0, T] から無作為に選択。Tはパラメータ(典型値 T=100) • t0 は [0, τ-t) から無作為に選択。τは入力フレーム数。 t0 t0 + t 0 τ 10
Slide 11
Slide 11 text
3つの加工の組み合わせ • 3つの加工(時間伸縮、周波数マスキング、時間マスキング) を組み合わせてスペクトログラムを加工する • 複数の周波数マスク・時間マスクの適用も可能 • 実験では、周波数マスク1~2個・時間マスク1~2個 で評価 11
Slide 12
Slide 12 text
データ加工のポリシー(4種類) • 各データセットに対して人手でポリシーを設計 • LibriSpeech: Basic (LB) と Double (LD) • Switchboard: Mild (SM) と Strong (SS) 12 ※m_F は周波数マスクの数、m_Tは時間マスクの数
Slide 13
Slide 13 text
モデル:LAS (Listen-Attend-Spell) • LAS モデルを用いて end-to-end 音声認識 を実行 • End-to-end 音声認識の代表的なモデル • 注意機構付き sequence-to-sequence モデル • 入力特徴系列 x を出力トークン系列 y に変換 • LAS のサイズを LAS-d-w と表記 • 入力部 CNN 2層 • Encoder d層のBLSTM(各層w素子) • Decoder 2層のRNN(各層w素子) • 出力は WPM (word-piece model)を使用 • 言語モデルとの shallow fusion • 探索中に次のトークン y* を LAS モデル と言語モデルの スコアを併用して決定 13
Slide 14
Slide 14 text
学習率スケジュール(3種類) • ベーシックなものから、じっくり学習するものまで、3種類の スケジュールを使用 14 ステップ数 学習率 0 s noise s r s i s f
Slide 15
Slide 15 text
実験 • 2つの音声認識タスクで WER (Word Error Rate) を評価 • LibriSpeech 960h、Switchboard 300h • LASの設定 • LASのサイズ: LAS-4-1024、LAS-6-1024、LAS-6-1280 • WPMのトークン数:LibriSpeech 16k、Switchboard 1k • データ拡張ポリシー: • LibriSpeech Basic (LB)/Double (LD), Switchboard Mild (SM)/Strong (SS) ※データの加工が LB/SM は穏やか、 LD/SS はキツめ • 学習率スケジュール: • B(asic), D(ouble), L(ong) ※学習時間が B(短い)・D(中くらい)・L(長い) • 言語モデル(shallow fusion):有/無 を評価 • ビーム探索(ビーム幅 8) 15
Slide 16
Slide 16 text
結果:データ拡張で認識誤りが大幅減 ・タスク:LibriSpeech 960h ・言語モデル(shallow fusion)なし 16
Slide 17
Slide 17 text
LibriSpeech 960h での評価結果の詳細(論文のTable 2) 17
Slide 18
Slide 18 text
結果:LibriSpeechタスクでSOTA 言語モデル(shallow fusion)あり 18
Slide 19
Slide 19 text
結果:SwitchboardタスクでもSOTA 言語モデル(shallow fusion)あり 19
Slide 20
Slide 20 text
結果:LMなしでもSOTA 20
Slide 21
Slide 21 text
考察①:どの加工が効いてるのか? • 加工①(時間伸縮)は、無くても問題なさそう • 加工②(周波数マスキング)と加工③(時間マスキング)は、 無いと精度が大きく劣化する 21 ①不使用 ①②③使用 ②不使用 ③不使用
Slide 22
Slide 22 text
考察②:Over-fittingからUnder-fittingへ • データ拡張により、over-fitな問題をunder-fitな問題へ変換 • 下図にも示すとおり over-fit から under-fit になっている • Under-fit な問題になったことで、より大きなモデルを、より長いスケ ジュールで学習することで、さらに性能を伸ばすことが可能になった LAS-6-1280 on LibriSpeech with pol LD, sch D 22
Slide 23
Slide 23 text
まとめ • SpecAugment によるデータ拡張を提案。音声認識精度が大幅 に向上することを示した • LAS による end-to-end 音声認識においてシンプルなデータ拡 張を用いることで、HMM-hybrid を含む従来システムの性能を 上回り、2つの音声認識タスク(LibriSpeech, Switchboard)で SOTA を更新した 23
Slide 24
Slide 24 text
画像の出典 • SpecAugment (Google AI Blog) • https://ai.googleblog.com/2019/04/specaugment-new-data- augmentation.html 24