Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR

CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR

野崎 樹文(LINE/京大),小松 達也(LINE)
日本音響学会2021年秋季研究発表会(音声A・音声B 1-3-4)発表資料
https://acoustics.jp/annualmeeting/

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers
PRO

September 07, 2021
Tweet

Transcript

  1. 1 CTC を⽤いた⾳声認識のための中間層予測による条件づけ ◇LINE Corporation, ▲Kyoto University Jumon Nozaki◇,▲, Tatsuya

    Komatsu◇
  2. 研究背景 uAutoregressive ASR vs CTC-based ASR p Autoregressive ASR •

    トークンを 1 つずつ出⼒ • 推論は遅い • 精度は⾼い p CTC-based ASR • トークンを並列に出⼒ • 出⼒トークン間の条件付独⽴性を仮定 • 推論は速い • 精度は低い Ø CTC-based ASR の⾼速な推論速度を保ったまま精度を上げたい 2
  3. 関連研究 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 • 通常の

    CTC は最終層である 𝐿 層⽬の出⼒ に対して以下の負の対数尤度を 最⼩化(𝐲 : 正解トークン列) • InterCTC は等間隔で K 個の中間層に対して CTC 損失を計算 • 最終的な損失関数(𝜆: 重み係数) • 推論時は最終層の出⼒のみ使⽤(中間層での追加の計算は⾏わない) 3
  4. 研究動機 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 uアイディア •

    InterCTC は中間層でもある程度の精度で認識可能 • 𝑙 層⽬で各フレームに対応するトークンの 事後確率分布 𝒁𝒍 を計算している • この 𝒁𝒍 を⽤いることができないか? Ø 中間層での予測結果を後段の処理に活⽤できないか? 4
  5. 提案⼿法 • InterCTC のシンプルな拡張 • ベースとなるアーキテクチャとしては Transformer を⽤いる • InterCTC

    と同様に, 中間層でも CTC 損失を計算 • 学習時・推論時ともに, 中間層で得られる事後確率分布 𝐙𝐥 を次の層の⼊⼒に加える Ø 最終層の予測が中間層での予測に条件づけられる 5 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒
  6. 提案⼿法 • LayerNorm, Linear, Linear’ は全ての層で共通のパラメータを⽤いる • 損失関数は InterCTC と同⼀

    • 通常の CTC と⽐べて推論時も追加の計算が必要なため, 推論速度は少し遅くなる 6 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒
  7. 評価実験: 実験条件 • ⽐較モデル • ⾃⼰回帰型Transformer, CTC, MaskCTC [Higuchi+, 2020],

    InterCTC, 提案モデル • データセット • TEDLIUM2 (英語) と AISHELL-1 (中国語) • 語彙サイズ • TEDLIUM2: 500 (SentencePiece), AISHELL-1: 4,231 (⽂字単位) • 評価指標 • Word Error Rate (TEDLIUM2), Character Error Rate (AISHELL-1) • 推論速度の評価に Real Time Factor • その他 • CTC, InterCTC, 提案モデル はエンコーダ 18 層 • ⾃⼰回帰型Transformer と MaskCTC はエンコーダ 12 層,デコーダ 6 層 • InterCTC と 提案モデル は 3 層おきに中間層の CTC 損失を計算 7
  8. 評価実験: 実験結果 • 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR

    の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速 8 WER on TEDLIUM2 CER on AISHELL-1
  9. • 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る •

    ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速 評価実験: 実験結果 9 WER on TEDLIUM2 CER on AISHELL-1
  10. 評価実験: 実験結果 10 WER on TEDLIUM2 CER on AISHELL-1 •

    通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速
  11. 評価実験: 実験結果 11 WER on TEDLIUM2 CER on AISHELL-1 •

    通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速
  12. 評価実験: 層ごとの認識例 • 中間層ではどのような認識結果が得られるか • 3 層ごとに認識結果を出⼒ • 認識結果が最終層に⾏くにつれて改善されている 12

    * 灰⾊: 認識誤りのある単語 ⻘⾊: 前の層から改善した単語
  13. まとめ • CTC を⽤いた⾳声認識モデルの精度を改善する⼿法を提案 • 提案⼿法は, 中間層をCTC 損失関数で学習し, 中間層で出⼒された予測で最終層の予測の条件づけを⾏う •

    複数のコーパスを⽤いて実験を⾏った結果, 提案⼿法は CTC の⾼速な推論速度を保ちつつ精度を⼤幅に改善. ビームサーチを⽤いた⾃⼰回帰モデルと同等の性能を達成 13