Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Hybrid Autoregressive Transducer [輪講発表資料]
Search
shibukazu
June 22, 2022
Research
0
120
Hybrid Autoregressive Transducer [輪講発表資料]
Hybrid Autoregressive Transducer に関する輪講発表資料です。
shibukazu
June 22, 2022
Tweet
Share
More Decks by shibukazu
See All by shibukazu
Perceiver: General Perception with Iterative [輪講発表資料]
shibukazu
0
77
Other Decks in Research
See All in Research
People Driven Transformation / 人が起点の、社会の変え方
dmattsun
0
150
Active Retrieval Augmented Generation
kiyohiro8
3
440
SANER 2019 Most Influential Paper Talk
tsantalis
0
120
AIを前提とした体験の実現に向けて/toward_ai_based_experiences
monochromegane
1
220
ニフティのインナーソース導入事例 - InnerSource Commons #11
niftycorp
PRO
0
250
リサーチに組織を巻き込むための「準備8割」の話
terasho
0
460
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
5
1.6k
マルチモーダルLLMの応用動向の論文調査
masatoto
7
2.7k
VAR モデルによる OSS プロジェクト同士が生存性に与える 影響の分析
noppoman
0
130
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
510
Deep State Space Models 101 / Mamba
kurita
9
3.4k
論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
nttcom
0
110
Featured
See All Featured
How GitHub Uses GitHub to Build GitHub
holman
468
290k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
658
120k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
24
2.3k
Building Your Own Lightsaber
phodgson
97
5.7k
Producing Creativity
orderedlist
PRO
336
39k
The Illustrated Children's Guide to Kubernetes
chrisshort
28
46k
No one is an island. Learnings from fostering a developers community.
thoeni
14
2.1k
GraphQLとの向き合い方2022年版
quramy
30
12k
Facilitating Awesome Meetings
lara
40
5.6k
KATA
mclloyd
14
12k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3k
Six Lessons from altMBA
skipperchong
19
3k
Transcript
Hybrid Autoregressive Transducer (HAT) [Variani, Rybach+ 2020] 京都大学 音声メディア研究室 M1
渋谷和樹 1
E2E音声認識 E2Eモデルはシンプルで学習しやすい パラレルデータの収集が難しいため、外部言語モデルを組み合わせたい 外部言語モデルの活用 ShallowFusion y = ∗ argmax
logP(y∣x) + logP (y) y ( LM ) E2Eモデル自体にも言語モデルが含まれてしまう(暗黙の言語モデル) 暗黙の言語モデルによる評価スコアを取り除いて推論を行いたい ⇒Transducerアーキテクチャの利用 Introduction 2
Transducer 3
Transducer 特徴 E2E音声認識のアーキテクチャの一つ CTCと同様に事前のアライメントが不要 CTCと異なり、出力系列同士の関連性も考慮 (ラベル+ブランク)の事後確率を出力 y ~ 4
Transducer 内部言語モデル Transducerではエンコーダーに依存しない出力 ラベルの事後確率(言語モデル確率) を計算できる から内部言語モデルスコアを計算する P(y∣y ) 0:u
logP (Y ) = ILM logP(y ∣y ) ∑ u=0 U−1 u+1 0:u 5
HAT 6
HAT 特徴 Transducerベースのアーキテクチャ 非ブランクラベルのみの事後確率を計算できる 正確な?言語モデル確率を計算できる 7
TransducerとHATの比較 HAT Transducer ネットワーク出力は 言語モデル確率はブランクラベル以外の Softmaxで計算される s (
∣y ) t,u y ~ 0:u HAT ネットワーク出力は 非ブランクラベルのスコアを含まない 言語モデル確率はすべてのラベルの Softmaxで計算される s (y∣y ) t,u 0:u 8
結果 9
実験設定 データセット: Google VoiceSearch Traffic 評価指標: WER アーキテクチャ: Encoder: 5layer,
2048cells/layerのLSTM Pred Net: 2layer, 256cells/layerのLSTM Joint Net: 1layerの線形層 入力: 対数メルスペクトログラム 結果 10
学習 強制アライメントを行い、教師ラベル(文章)の音素列を得る 各モデルは42種類の音素の事後確率を予測 各モデル単体で学習を行う(学習時は外部言語モデルを利用しない) 推論 各モデルを音響モデルとして使用 WFSTとして発音辞書・外部言語モデルを組み合わせてデコーディング 結果 11
各手法のデコード方法 Cross-Entropy CTC, RNN-T HAT 結果 = y ~∗
argmax λ log P(x ∣ ) + y ~ 1 (∏ t=1 T t y ~ t ) logP (B( )) LM y ~ = y ~∗ argmax λ logP ( ∣x) + y ~ 1 ′ y ~ logP (B( )) + LM y ~ λ v( ) 2 y ~ = y ~∗ argmax λ logP( ∣x) + y ~ 1 y ~ logP (B( )) − LM y ~ λ logP (B( )) 2 ILM y ~ 12
他手法との比較 2nd-pass: リスコアリングを行った場合の結果 いずれのケースでも他手法より優れた性能を示した 結果 13
結果 内部言語モデルの学習状況の可視化 Prior cost: 各エポックごとの平均パープレキシティと解釈 MTL: Prior costを最小化するマルチタスク学習 パープレキシティは一度下がり、徐々に増加 音素認識では言語モデルは最適化されない?
学習初期は言語情報に重点を置いている? − logP (y) ∣D∣ 1 ∑ y∈D ILM 14
結果 内部言語モデルの寄与率とWER HAT 付近で最も良い性能 ただのShallowFusionではなく、内部言語 モデルの影響を取り除くことが重要 HAT+MTL Prior costを最小化しているが性能はあまり 向上していない
よい内部言語モデルを構築することは重要 ではないということ? λ = 2 1 15
Pred Netへの入力長の影響 入力系列長が長いほどパープレキシティは減少しているが、WERは変化していない 系列が長いとExposure Biasの影響が大きくなるから? Exposure Bias: 学習時はTeacherForcingを行うが、推論時は教師ラベルが存在しないこと 結果 16
まとめ 17
E2Eモデルを音響モデルとして利用するためのアプローチであるHATを提案 内部言語モデルのパープレキシティを評価できるようになった →外部言語モデルの必要性の判断基準となる まとめ 18