CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR

1 CTC を⽤いた⾳声認識のための中間層予測による条件づけ ◇LINE Corporation, ▲Kyoto University Jumon Nozaki◇,▲, Tatsuya
Komatsu◇

研究背景 uAutoregressive ASR vs CTC-based ASR p Autoregressive ASR •
トークンを 1 つずつ出⼒ • 推論は遅い • 精度は⾼い p CTC-based ASR • トークンを並列に出⼒ • 出⼒トークン間の条件付独⽴性を仮定 • 推論は速い • 精度は低い Ø CTC-based ASR の⾼速な推論速度を保ったまま精度を上げたい 2

関連研究 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 • 通常の
CTC は最終層である 𝐿 層⽬の出⼒に対して以下の負の対数尤度を最⼩化（𝐲 : 正解トークン列） • InterCTC は等間隔で K 個の中間層に対して CTC 損失を計算 • 最終的な損失関数（𝜆: 重み係数） • 推論時は最終層の出⼒のみ使⽤（中間層での追加の計算は⾏わない） 3

研究動機 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 uアイディア •
InterCTC は中間層でもある程度の精度で認識可能 • 𝑙 層⽬で各フレームに対応するトークンの事後確率分布 𝒁𝒍 を計算している • この 𝒁𝒍 を⽤いることができないか？ Ø 中間層での予測結果を後段の処理に活⽤できないか？ 4

提案⼿法 • InterCTC のシンプルな拡張 • ベースとなるアーキテクチャとしては Transformer を⽤いる • InterCTC
と同様に, 中間層でも CTC 損失を計算 • 学習時・推論時ともに, 中間層で得られる事後確率分布 𝐙𝐥 を次の層の⼊⼒に加える Ø 最終層の予測が中間層での予測に条件づけられる 5 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒

提案⼿法 • LayerNorm, Linear, Linear’ は全ての層で共通のパラメータを⽤いる • 損失関数は InterCTC と同⼀
• 通常の CTC と⽐べて推論時も追加の計算が必要なため, 推論速度は少し遅くなる 6 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒

評価実験: 実験条件 • ⽐較モデル • ⾃⼰回帰型Transformer, CTC, MaskCTC [Higuchi+, 2020],
InterCTC, 提案モデル • データセット • TEDLIUM2 (英語) と AISHELL-1 (中国語) • 語彙サイズ • TEDLIUM2: 500 (SentencePiece), AISHELL-1: 4,231 (⽂字単位) • 評価指標 • Word Error Rate (TEDLIUM2), Character Error Rate (AISHELL-1) • 推論速度の評価に Real Time Factor • その他 • CTC, InterCTC, 提案モデルはエンコーダ 18 層 • ⾃⼰回帰型Transformer と MaskCTC はエンコーダ 12 層，デコーダ 6 層 • InterCTC と提案モデルは 3 層おきに中間層の CTC 損失を計算 7

評価実験: 実験結果 • 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR
の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速 8 WER on TEDLIUM2 CER on AISHELL-1

• 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る •
ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速評価実験: 実験結果 9 WER on TEDLIUM2 CER on AISHELL-1

評価実験: 実験結果 10 WER on TEDLIUM2 CER on AISHELL-1 •
通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速

評価実験: 実験結果 11 WER on TEDLIUM2 CER on AISHELL-1 •
通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速

評価実験: 層ごとの認識例 • 中間層ではどのような認識結果が得られるか • 3 層ごとに認識結果を出⼒ • 認識結果が最終層に⾏くにつれて改善されている 12
* 灰⾊: 認識誤りのある単語⻘⾊: 前の層から改善した単語

まとめ • CTC を⽤いた⾳声認識モデルの精度を改善する⼿法を提案 • 提案⼿法は, 中間層をCTC 損失関数で学習し, 中間層で出⼒された予測で最終層の予測の条件づけを⾏う •
複数のコーパスを⽤いて実験を⾏った結果, 提案⼿法は CTC の⾼速な推論速度を保ちつつ精度を⼤幅に改善. ビームサーチを⽤いた⾃⼰回帰モデルと同等の性能を達成 13

CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning m...

CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

1 CTC を⽤いた⾳声認識のための中間層予測による条件づけ ◇LINE Corporation, ▲Kyoto University Jumon Nozaki◇,▲, Tatsuya

研究背景 uAutoregressive ASR vs CTC-based ASR p Autoregressive ASR •

関連研究 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 • 通常の

研究動機 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 uアイディア •

提案⼿法 • InterCTC のシンプルな拡張 • ベースとなるアーキテクチャとしては Transformer を⽤いる • InterCTC

提案⼿法 • LayerNorm, Linear, Linear’ は全ての層で共通のパラメータを⽤いる • 損失関数は InterCTC と同⼀

評価実験: 実験条件 • ⽐較モデル • ⾃⼰回帰型Transformer, CTC, MaskCTC [Higuchi+, 2020],

評価実験: 実験結果 • 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR

• 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る •

評価実験: 実験結果 10 WER on TEDLIUM2 CER on AISHELL-1 •

評価実験: 実験結果 11 WER on TEDLIUM2 CER on AISHELL-1 •

評価実験: 層ごとの認識例 • 中間層ではどのような認識結果が得られるか • 3 層ごとに認識結果を出⼒ • 認識結果が最終層に⾏くにつれて改善されている 12

まとめ • CTC を⽤いた⾳声認識モデルの精度を改善する⼿法を提案 • 提案⼿法は, 中間層をCTC 損失関数で学習し, 中間層で出⼒された予測で最終層の予測の条件づけを⾏う •