音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか？

音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか？沢井康孝長岡技術科学大学電気系菊井玄一郎山本
博史 ATR 音声言語コミュニケーション研究所

音声翻訳システム • ATR 音声翻訳システムの構成音声認識自動翻訳音声合成認識結果 ( 橋
, ハシ , 橋 , 普通名詞 ,- ...) 翻訳結果音声音声音響モデル： HMM 言語モデル： N グラム統計翻訳（ IBM モデル４）

問題 • 音声認識出力の形態素属性の一部のみを使うとシステム全体の性能はどう変わるか？自動翻訳に読みの情報だけ渡す場合音声認識：同音多義語の解消を行わない自動翻訳：同音多義解消の負担増加音声： /hasi/ 箸
橋 chopsticks 音声認識翻訳ハシ chopsticks bridge 翻訳音声認識

実験の概要橋 , ハシ , 橋 , 普通名詞 ,- 箸
, ハシ , 箸 , 普通名詞 ,- 音声認識変換 (-, ハシ ,-,-,-) 音声 :hashi 元の翻訳学習用コーパス変換新しい翻訳学習用コーパス自動翻訳 -, ハシ ,-,-,- 翻訳結果橋 , ハシ , 橋 , 普通名詞 ,- （英語側は変更なし）

実験条件 • 形態素属性の組み合わせ • 分析対象（訓練セット、評価セット） • 翻訳方法 • 評価方法

形態素属性の組み合わせ – 表層形、読み、正規形、品詞、品詞補助情報 • 見る、ミル、見る、本動詞、一段 _ 基本 – 表層形、読み、正規形、品詞 •
見る、ミル、見る、本動詞 – 読み、正規形 • ミル、見る – 読み、品詞 • ミル、本動詞 – 読み • ミル

条件：分析対象 • 旅行会話基本表現集 – ＢＴＥＣ（日英対訳コーパス）評価セット – 話者８人分の音声認識結果 • 音声認識から翻訳まで合わせた性能
– 正解認識データ • 自動翻訳単体性能訓練セット評価セット 152170文（発話） 1018文

評価指標 • ＢＬＥＵ • ＷＥＲ（１文に対して１６文の正解を使用）

実験結果 • 学習された翻訳辞書の状態 – 原言語側単語数 – 日英翻訳候補 • 音声認識精度 •
翻訳精度 – 翻訳単体精度 – 音声翻訳精度

翻訳辞書 • 原言語側辞書 – 読みにおいて • 約３０００個減少 10000 11000 12000
13000 14000 15000 16000 17000 18000 19000 20000 表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

平均多義数 • 元の属性情報を再現する際の候補数 • 訓練データにおける相対頻度を元にパープレキシティと同様の方法で計算 •
「品詞」情報 – 決定に大きく作用 0 1 2 3 4 5 6 7 8 9 単語文表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

詳細度候補確率値候補確率値箸 chopstick 0.745 chopstick 0.917
me 0.126 pair 0.083 総候補数 4 総候補数 2 橋 bridge 0.826 bridge 0.764 one 0.039 there 0.091 総候補数 5 総候補数 5 端 end 0.354 end 0.555 right 0.068 dowstairs 0.210 総候補数 7 総候補数 9 表層形,読み,正規形,品詞読み,正規形詳細度読み候補確率値候補確率値ハシ chopstick 0.37 bridge 0.48 bridge 0.32 chopstick 0.26 総候補数 9 総候補数 13 読み,品詞

音声認識精度 • 正解との一致率 • ８話者の平均値 • 読みの場合で認識精度が約１％向上 94
94.5 95 95.5 96 表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

翻訳精度１ • ＢＬＥＵ正解入力▪ 認識入力▪ 0.5 0.52 0.54 0.56 0.58
0.6 0.62 0.64 表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

翻訳精度２ • ＷＥＲ正解入力▪ 認識入力▪ 0.26 0.28 0.3 0.32 0.34
0.36 0.38 0.4 表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

翻訳精度 • ＢＬＥＵ – 0.02 の変動幅 • ＷＥＲ – 0.02
の変動幅詳細度を荒くしても評価セット全体の平均的な精度はほとんど変わらない

考察：詳細度と翻訳精度 • 読みだけの場合 – 全ての情報を付加と同等の精度 • 翻訳結果 – 入力の曖昧性上昇により正解と誤りが混在

考察：翻訳精度向上の可能性 • 評価セット全体の平均 – 差は小さい • 五種類の翻訳結果から正解に近い出力を選択（ oracle ）
– BLEU :0.585 → 0.628 – WER :0.365 → 0.289 • 形態素属性を使い分けることで性能改善の可能性がある。

まとめ　音声翻訳において、形態素の同定処理を音声認識から自動翻訳に移動しても、翻訳結果の精度はほとんど変化しない。今後の課題 – 翻訳結果の自動選択 – 単語単位で属性の使い分け

ありがとうございました。

１つしかない例表層：あなた読み：アナタ正規：あなた品詞：代名詞補助：無し詳細度ＡＢＣ
ＤＥ 1 your your your your your 確率 0.395 0.428 0.412 0.413 0.418 2 you you you you you 確率 0.123 0.150 0.204 0.162 0.213 総選択肢 298 268 247 295 242

BLEU：低下幅 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016
0.018 表層読み正規品詞補助表層読み正規品詞読み正規読み品詞読み

機能分担 • 形態素情報「読み」以外を無視 – 音声認識同音異義語の解消の処理を行わない負担軽減 – 翻訳翻訳多義解消の機構で同音異義解消
負担増加機能分担が変更される

実験システム • ＡＴＲ音声翻訳システム使用条件音声認識と自動翻訳の間について行う日英に限定する – 認識 • 音響モデル　　ＨＭＭ
• 言語モデル　　単語Ｎグラム – 翻訳 • 統計モデル　　ＩＢＭモデル４

翻訳方法について音声認識翻訳学習コーパス認識結果 ( 雨 , アメ ,
雨 , 普通名詞 ,-) (-, アメ ,-,-,-) 原語側 ( 雨 , アメ , 雨 , 普通名詞 ,-) ( 飴 , アメ , 飴 , 普通名詞 , 飲食物 ) 複数の単語が統一

音声認識出力と自動翻訳 • 音声認識モジュール出力 – 音声認識用の言語モデルにおける形態素情報、表層形、読み、正規、品詞、品詞補助の組み合わせで決定 • 翻訳モジュール –
原語側を音声認識出力に対応させて学習表層形読み　正規形品詞　品詞補助言っイッ言う本動詞ワ行五段

音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか？

音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか？

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript