Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
Search
自然言語処理研究室
March 31, 2005
Research
0
180
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
音声翻訳において音声認識出力の詳細度は最終結果にどう影響するか?
自然言語処理研究室
March 31, 2005
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
790
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
210
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
300
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
360
Submeter-level land cover mapping of Japan
satai
3
280
Combinatorial Search with Generators
kei18
0
750
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
110
電力システム最適化入門
mickey_kubo
1
910
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
480
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
760
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
930
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
0
300
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
The Power of CSS Pseudo Elements
geoffreycrofte
77
6k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Gamification - CAS2011
davidbonilla
81
5.4k
Scaling GitHub
holman
463
140k
Speed Design
sergeychernyshev
32
1.1k
Writing Fast Ruby
sferik
628
62k
Art, The Web, and Tiny UX
lynnandtonic
302
21k
Bash Introduction
62gerente
615
210k
Transcript
音声翻訳において 音声認識出力の詳細度は 最終結果にどう影響するか? 沢井 康孝 長岡技術科学大学 電気系 菊井 玄一郎 山本
博史 ATR 音声言語コミュニケーション研究所
音声翻訳システム • ATR 音声翻訳システムの構成 音声認識 自動翻訳 音声合成 認識結果 ( 橋
, ハシ , 橋 , 普通名詞 ,- ...) 翻訳結果 音声 音声 音響モデル: HMM 言語モデル: N グラム 統計翻訳( IBM モデル4)
問題 • 音声認識出力の形態素属性の一部のみを使う とシステム全体の性能はどう変わるか? 自動翻訳に読みの情報だけ渡す場合 音声認識:同音多義語の解消を行わない 自動翻訳:同音多義解消の負担増加 音声: /hasi/ 箸
橋 chopsticks 音声認識 翻訳 ハシ chopsticks bridge 翻訳 音声認識
実験の概要 橋 , ハシ , 橋 , 普通名詞 ,- 箸
, ハシ , 箸 , 普通名詞 ,- 音声認識 変換 (-, ハシ ,-,-,-) 音声 :hashi 元の翻訳学習用コーパス 変換 新しい翻訳学習用 コーパス 自動翻訳 -, ハシ ,-,-,- 翻訳結果 橋 , ハシ , 橋 , 普通名詞 ,- (英語側は変更なし)
実験条件 • 形態素属性の組み合わせ • 分析対象(訓練セット、評価セット) • 翻訳方法 • 評価方法
形態素属性の組み合わせ – 表層形、読み、正規形、品詞、品詞補助情報 • 見る、ミル、見る、本動詞、一段 _ 基本 – 表層形、読み、正規形、品詞 •
見る、ミル、見る、本動詞 – 読み、正規形 • ミル、見る – 読み、品詞 • ミル、本動詞 – 読み • ミル
条件:分析対象 • 旅行会話基本表現集 – BTEC(日英対訳コーパス) 評価セット – 話者8人分の音声認識結果 • 音声認識から翻訳まで合わせた性能
– 正解認識データ • 自動翻訳単体性能 訓練セット 評価セット 152170文(発話) 1018文
評価指標 • BLEU • WER (1文に対して16文の正解を使用)
実験結果 • 学習された翻訳辞書の状態 – 原言語側単語数 – 日英翻訳候補 • 音声認識精度 •
翻訳精度 – 翻訳単体精度 – 音声翻訳精度
翻訳辞書 • 原言語側辞書 – 読みにおいて • 約3000個減少 10000 11000 12000
13000 14000 15000 16000 17000 18000 19000 20000 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
平均多義数 • 元の属性情報を再現す る際の候補数 • 訓練データにおける相 対頻度を元にパープレ キシティと同様の方法 で計算 •
「品詞」情報 – 決定に大きく作用 0 1 2 3 4 5 6 7 8 9 単語 文 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
詳細度 候補 確率値 候補 確率値 箸 chopstick 0.745 chopstick 0.917
me 0.126 pair 0.083 総候補数 4 総候補数 2 橋 bridge 0.826 bridge 0.764 one 0.039 there 0.091 総候補数 5 総候補数 5 端 end 0.354 end 0.555 right 0.068 dowstairs 0.210 総候補数 7 総候補数 9 表層形,読み,正規形,品詞 読み,正規形 詳細度 読み 候補 確率値 候補 確率値 ハシ chopstick 0.37 bridge 0.48 bridge 0.32 chopstick 0.26 総候補数 9 総候補数 13 読み,品詞
音声認識精度 • 正解との一致率 • 8話者の平均値 • 読みの場合で認 識精度が約1% 向上 94
94.5 95 95.5 96 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度1 • BLEU 正解入力▪ 認識入力▪ 0.5 0.52 0.54 0.56 0.58
0.6 0.62 0.64 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度2 • WER 正解入力▪ 認識入力▪ 0.26 0.28 0.3 0.32 0.34
0.36 0.38 0.4 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
翻訳精度 • BLEU – 0.02 の変動幅 • WER – 0.02
の変動幅 詳細度を荒くしても評価セット全体の平均的 な精度はほとんど変わらない
考察:詳細度と翻訳精度 • 読みだけの場合 – 全ての情報を付加と同等の精度 • 翻訳結果 – 入力の曖昧性上昇により正解と誤りが混在
考察:翻訳精度向上の可能性 • 評価セット全体の平均 – 差は小さい • 五種類の翻訳結果から正解に近い出力を選択 ( oracle )
– BLEU :0.585 → 0.628 – WER :0.365 → 0.289 • 形態素属性を使い分けることで性能改善の可 能性がある。
まとめ 音声翻訳において、形態素の同定処理を音 声認識から自動翻訳に移動しても、翻訳結果 の精度はほとんど変化しない。 今後の課題 – 翻訳結果の自動選択 – 単語単位で属性の使い分け
ありがとうございました。
1つしかない例 表層:あなた 読み:アナタ 正規:あなた 品詞:代名詞 補助:無し 詳細度 A B C
D E 1 your your your your your 確率 0.395 0.428 0.412 0.413 0.418 2 you you you you you 確率 0.123 0.150 0.204 0.162 0.213 総選択肢 298 268 247 295 242
BLEU:低下幅 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016
0.018 表層 読み 正規 品詞 補助 表層 読み 正規 品詞 読み 正規 読み 品詞 読み
機能分担 • 形態素情報「読み」以外を無視 – 音声認識 同音異義語の解消の処理を行わない 負担軽減 – 翻訳 翻訳多義解消の機構で同音異義解消
負担増加 機能分担が変更される
実験システム • ATR音声翻訳システム 使用条件 音声認識と自動翻訳の間について行う 日英に限定する – 認識 • 音響モデル HMM
• 言語モデル 単語Nグラム – 翻訳 • 統計モデル IBMモデル4
翻訳方法について 音声認識 翻訳 学習コーパス 認識結果 ( 雨 , アメ ,
雨 , 普通名詞 ,-) (-, アメ ,-,-,-) 原語側 ( 雨 , アメ , 雨 , 普通名詞 ,-) ( 飴 , アメ , 飴 , 普通名詞 , 飲食物 ) 複数の単語が統一
音声認識出力と自動翻訳 • 音声認識モジュール出力 – 音声認識用の言語モデルにおける形態素情報、 表層形、読み、正規、品詞、品詞補助の組み合 わせで決定 • 翻訳モジュール –
原語側を音声認識出力に対応させて学習 表層形 読み 正規形 品詞 品詞補助 言っ イッ 言う 本動詞 ワ行五段