Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR
Search
LINE Developers
PRO
September 07, 2021
Technology
0
560
CTC を用いた音声認識のための中間層予測による条件づけ / A conditioning method with intermediate predictions for CTC-based ASR
野崎 樹文(LINE/京大),小松 達也(LINE)
日本音響学会2021年秋季研究発表会(音声A・音声B 1-3-4)発表資料
https://acoustics.jp/annualmeeting/
LINE Developers
PRO
September 07, 2021
Tweet
Share
More Decks by LINE Developers
See All by LINE Developers
LINEスタンプのSREing事例集:大きなスパイクアクセスを捌くためのSREing
line_developers
PRO
1
1.3k
Java 21 Overview
line_developers
PRO
6
770
Code Review Challenge: An example of a solution
line_developers
PRO
1
800
KARTEのAPIサーバ化
line_developers
PRO
1
360
著作権とは何か?〜初歩的概念から権利利用法、侵害要件まで
line_developers
PRO
5
1.7k
生成AIと著作権 〜生成AIによって生じる著作権関連の課題と対処
line_developers
PRO
3
1.7k
マイクロサービスにおけるBFFアーキテクチャでのモジュラモノリスの導入
line_developers
PRO
9
2.3k
A/B Testing at LINE NEWS
line_developers
PRO
2
590
LINEのサポートバージョンの考え方
line_developers
PRO
2
760
Other Decks in Technology
See All in Technology
エンジニア候補者向け資料2024.03.28.pdf
macloud
0
2.9k
関数型DDDの理論と実践:「決定を遅らせる」を先につくり、 ビジネスの機動力と価値をあげる
knih
2
500
Autopsy of a Cascading Outage from a MySQL Crashing Bug
jfg956
0
200
「XX試験の環境作ってよ」と言われた時によく使うAWSのソリューションについて
bun913
0
120
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
2.1k
20240321_生成AI時代のDevOps
kzkmaeda
2
610
統計的学習理論読み Chapter 1
kmatsui
4
990
HoneycombとOpenTelemetryでオブザーバビリティに入門してみる
sumiren
2
160
KTC_DBRE.pdf
_awache
1
290
.NETの非同期戦略とUnityとの相互運用
neuecc
2
2.4k
Autify Company Deck
autifyhq
1
30k
継続的テストモデルを実現するためにスリーアミーゴスを用いた10Xでのシフトレフトの事例
nihonbuson
3
260
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
72
8.2k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
319
20k
A Tale of Four Properties
chriscoyier
150
22k
RailsConf 2023
tenderlove
0
510
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
16k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
240
1.2M
Teambox: Starting and Learning
jrom
126
8.4k
Building Effective Engineering Teams - LeadDev
addyosmani
25
1.8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
12
1.4k
Making the Leap to Tech Lead
cromwellryan
123
8.4k
Gamification - CAS2011
davidbonilla
76
4.5k
Transcript
1 CTC を⽤いた⾳声認識のための中間層予測による条件づけ ◇LINE Corporation, ▲Kyoto University Jumon Nozaki◇,▲, Tatsuya
Komatsu◇
研究背景 uAutoregressive ASR vs CTC-based ASR p Autoregressive ASR •
トークンを 1 つずつ出⼒ • 推論は遅い • 精度は⾼い p CTC-based ASR • トークンを並列に出⼒ • 出⼒トークン間の条件付独⽴性を仮定 • 推論は速い • 精度は低い Ø CTC-based ASR の⾼速な推論速度を保ったまま精度を上げたい 2
関連研究 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 • 通常の
CTC は最終層である 𝐿 層⽬の出⼒ に対して以下の負の対数尤度を 最⼩化(𝐲 : 正解トークン列) • InterCTC は等間隔で K 個の中間層に対して CTC 損失を計算 • 最終的な損失関数(𝜆: 重み係数) • 推論時は最終層の出⼒のみ使⽤(中間層での追加の計算は⾏わない) 3
研究動機 uInterCTC [Lee+, 2021] : 中間層の出⼒に対しても CTC 損失を計算 uアイディア •
InterCTC は中間層でもある程度の精度で認識可能 • 𝑙 層⽬で各フレームに対応するトークンの 事後確率分布 𝒁𝒍 を計算している • この 𝒁𝒍 を⽤いることができないか? Ø 中間層での予測結果を後段の処理に活⽤できないか? 4
提案⼿法 • InterCTC のシンプルな拡張 • ベースとなるアーキテクチャとしては Transformer を⽤いる • InterCTC
と同様に, 中間層でも CTC 損失を計算 • 学習時・推論時ともに, 中間層で得られる事後確率分布 𝐙𝐥 を次の層の⼊⼒に加える Ø 最終層の予測が中間層での予測に条件づけられる 5 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒
提案⼿法 • LayerNorm, Linear, Linear’ は全ての層で共通のパラメータを⽤いる • 損失関数は InterCTC と同⼀
• 通常の CTC と⽐べて推論時も追加の計算が必要なため, 推論速度は少し遅くなる 6 : 𝑙 層⽬の出⼒ : 𝑙 + 1 層⽬の⼊⼒
評価実験: 実験条件 • ⽐較モデル • ⾃⼰回帰型Transformer, CTC, MaskCTC [Higuchi+, 2020],
InterCTC, 提案モデル • データセット • TEDLIUM2 (英語) と AISHELL-1 (中国語) • 語彙サイズ • TEDLIUM2: 500 (SentencePiece), AISHELL-1: 4,231 (⽂字単位) • 評価指標 • Word Error Rate (TEDLIUM2), Character Error Rate (AISHELL-1) • 推論速度の評価に Real Time Factor • その他 • CTC, InterCTC, 提案モデル はエンコーダ 18 層 • ⾃⼰回帰型Transformer と MaskCTC はエンコーダ 12 層,デコーダ 6 層 • InterCTC と 提案モデル は 3 層おきに中間層の CTC 損失を計算 7
評価実験: 実験結果 • 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR
の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速 8 WER on TEDLIUM2 CER on AISHELL-1
• 通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る •
ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速 評価実験: 実験結果 9 WER on TEDLIUM2 CER on AISHELL-1
評価実験: 実験結果 10 WER on TEDLIUM2 CER on AISHELL-1 •
通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速
評価実験: 実験結果 11 WER on TEDLIUM2 CER on AISHELL-1 •
通常の CTC と⽐較して⼤幅な認識精度の改善. 推論速度の低下は⼩さい • Non-autoregressive ASR の既存研究の精度を上回る • ビームサーチを⽤いた⾃⼰回帰モデルと同程度の認識精度. 推論速度はずっと⾼速
評価実験: 層ごとの認識例 • 中間層ではどのような認識結果が得られるか • 3 層ごとに認識結果を出⼒ • 認識結果が最終層に⾏くにつれて改善されている 12
* 灰⾊: 認識誤りのある単語 ⻘⾊: 前の層から改善した単語
まとめ • CTC を⽤いた⾳声認識モデルの精度を改善する⼿法を提案 • 提案⼿法は, 中間層をCTC 損失関数で学習し, 中間層で出⼒された予測で最終層の予測の条件づけを⾏う •
複数のコーパスを⽤いて実験を⾏った結果, 提案⼿法は CTC の⾼速な推論速度を保ちつつ精度を⼤幅に改善. ビームサーチを⽤いた⾃⼰回帰モデルと同等の性能を達成 13