Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
Search
自然言語処理研究室
March 31, 2005
Research
0
120
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
自然言語処理研究室
March 31, 2005
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
Gmail の「メール送信者のガイドライン」強化から 1 ヵ月、今後予想されるメールセキュリティの変化とは
hirachan
1
240
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
430
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
220
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
120
フルリモートワークでのスクラムのスケール
kmorita1111
2
1k
床面圧力センサ開発における感圧導電シート分離方式の検討 / WISS2023
yumulab
0
270
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
180
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
620
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
180
People Driven Transformation / 人が起点の、社会の変え方
dmattsun
0
150
Webスケールデータセットに対する実用的なポイズニング手法 / Poisoning Web-Scale Training Datasets is Practical
nttcom
0
120
NeurIPS-23 参加報告 + DPO 解説
akifumi_wachi
4
1.5k
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
Side Projects
sachag
451
41k
Being A Developer After 40
akosma
57
580k
Fireside Chat
paigeccino
21
2.6k
Facilitating Awesome Meetings
lara
42
5.6k
A Philosophy of Restraint
colly
197
16k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
274
13k
GraphQLの誤解/rethinking-graphql
sonatard
50
9.2k
Practical Orchestrator
shlominoach
182
9.7k
Into the Great Unknown - MozCon
thekraken
10
990
Building Better People: How to give real-time feedback that sticks.
wjessup
355
18k
Transcript
音声翻訳において 音声認識出力の詳細度は 最終結果にどう影響するか? 沢井 康孝 長岡技術科学大学 電気系 菊井 玄一郎 山本
博史 ATR 音声言語コミュニケーション研究所
音声翻訳システム • ATR 音声翻訳システムの構成 音声認識 自動翻訳 音声合成 認識結果 ( 橋
, ハシ , 橋 , 普通名詞 ,- ...) 翻訳結果 音声 音声 音響モデル: HMM 言語モデル: N グラム 統計翻訳( IBM モデル4)
問題 • 音声認識出力の形態素属性の一部のみを使う とシステム全体の性能はどう変わるか? 自動翻訳に読みの情報だけ渡す場合 音声認識:同音多義語の解消を行わない 自動翻訳:同音多義解消の負担増加 音声: /hasi/ 箸
橋 chopsticks 音声認識 翻訳 ハシ chopsticks bridge 翻訳 音声認識
実験の概要 橋 , ハシ , 橋 , 普通名詞 ,- 箸
, ハシ , 箸 , 普通名詞 ,- 音声認識 変換 (-, ハシ ,-,-,-) 音声 :hashi 元の翻訳学習用コーパス 変換 新しい翻訳学習用 コーパス 自動翻訳 -, ハシ ,-,-,- 翻訳結果 橋 , ハシ , 橋 , 普通名詞 ,- (英語側は変更なし)
実験条件 • 形態素属性の組み合わせ • 分析対象(訓練セット、評価セット) • 翻訳方法 • 評価方法
形態素属性の組み合わせ – 表層形、読み、正規形、品詞、品詞補助情報 • 見る、ミル、見る、本動詞、一段 _ 基本 – 表層形、読み、正規形、品詞 •
見る、ミル、見る、本動詞 – 読み、正規形 • ミル、見る – 読み、品詞 • ミル、本動詞 – 読み • ミル
条件:分析対象 • 旅行会話基本表現集 – BTEC(日英対訳コーパス) 評価セット – 話者8人分の音声認識結果 • 音声認識から翻訳まで合わせた性能
– 正解認識データ • 自動翻訳単体性能 訓練セット 評価セット 152170文(発話) 1018文
評価指標 • BLEU • WER (1文に対して16文の正解を使用)
実験結果 • 学習された翻訳辞書の状態 – 原言語側単語数 – 日英翻訳候補 • 音声認識精度 •
翻訳精度 – 翻訳単体精度 – 音声翻訳精度
翻訳辞書 • 原言語側辞書 – 読みにおいて • 約3000個減少 10000 11000 12000
13000 14000 15000 16000 17000 18000 19000 20000 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
平均多義数 • 元の属性情報を再現す る際の候補数 • 訓練データにおける相 対頻度を元にパープレ キシティと同様の方法 で計算 •
「品詞」情報 – 決定に大きく作用 0 1 2 3 4 5 6 7 8 9 単語 文 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
詳細度 候補 確率値 候補 確率値 箸 chopstick 0.745 chopstick 0.917
me 0.126 pair 0.083 総候補数 4 総候補数 2 橋 bridge 0.826 bridge 0.764 one 0.039 there 0.091 総候補数 5 総候補数 5 端 end 0.354 end 0.555 right 0.068 dowstairs 0.210 総候補数 7 総候補数 9 表層形,読み,正規形,品詞 読み,正規形 詳細度 読み 候補 確率値 候補 確率値 ハシ chopstick 0.37 bridge 0.48 bridge 0.32 chopstick 0.26 総候補数 9 総候補数 13 読み,品詞
音声認識精度 • 正解との一致率 • 8話者の平均値 • 読みの場合で認 識精度が約1% 向上 94
94.5 95 95.5 96 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度1 • BLEU 正解入力▪ 認識入力▪ 0.5 0.52 0.54 0.56 0.58
0.6 0.62 0.64 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度2 • WER 正解入力▪ 認識入力▪ 0.26 0.28 0.3 0.32 0.34
0.36 0.38 0.4 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度 • BLEU – 0.02 の変動幅 • WER – 0.02
の変動幅 詳細度を荒くしても評価セット全体の平均的 な精度はほとんど変わらない
考察:詳細度と翻訳精度 • 読みだけの場合 – 全ての情報を付加と同等の精度 • 翻訳結果 – 入力の曖昧性上昇により正解と誤りが混在
考察:翻訳精度向上の可能性 • 評価セット全体の平均 – 差は小さい • 五種類の翻訳結果から正解に近い出力を選択 ( oracle )
– BLEU :0.585 → 0.628 – WER :0.365 → 0.289 • 形態素属性を使い分けることで性能改善の可 能性がある。
まとめ 音声翻訳において、形態素の同定処理を音 声認識から自動翻訳に移動しても、翻訳結果 の精度はほとんど変化しない。 今後の課題 – 翻訳結果の自動選択 – 単語単位で属性の使い分け
ありがとうございました。
1つしかない例 表層:あなた 読み:アナタ 正規:あなた 品詞:代名詞 補助:無し 詳細度 A B C
D E 1 your your your your your 確率 0.395 0.428 0.412 0.413 0.418 2 you you you you you 確率 0.123 0.150 0.204 0.162 0.213 総選択肢 298 268 247 295 242
BLEU:低下幅 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016
0.018 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
機能分担 • 形態素情報「読み」以外を無視 – 音声認識 同音異義語の解消の処理を行わない 負担軽減 – 翻訳 翻訳多義解消の機構で同音異義解消
負担増加 機能分担が変更される
実験システム • ATR音声翻訳システム 使用条件 音声認識と自動翻訳の間について行う 日英に限定する – 認識 • 音響モデル HMM
• 言語モデル 単語Nグラム – 翻訳 • 統計モデル IBMモデル4
翻訳方法について 音声認識 翻訳 学習コーパス 認識結果 ( 雨 , アメ ,
雨 , 普通名詞 ,-) (-, アメ ,-,-,-) 原語側 ( 雨 , アメ , 雨 , 普通名詞 ,-) ( 飴 , アメ , 飴 , 普通名詞 , 飲食物 ) 複数の単語が統一
音声認識出力と自動翻訳 • 音声認識モジュール出力 – 音声認識用の言語モデルにおける形態素情報、 表層形、読み、正規、品詞、品詞補助の組み合 わせで決定 • 翻訳モジュール –
原語側を音声認識出力に対応させて学習 表層形 読み 正規形 品詞 品詞補助 言っ イッ 言う 本動詞 ワ行五段