Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的機械翻訳における地名の汎化の影響
Search
自然言語処理研究室
March 31, 2009
Research
0
77
統計的機械翻訳における地名の汎化の影響
関 拓也. 統計的機械翻訳における地名の汎化の影響. 長岡技術科学大学課題研究報告書 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
190
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
230
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
490
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.6k
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
200
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
510
Trust No Bot? Forging Confidence in AI for Software Engineering
tomzimmermann
1
240
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
740
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
350
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1k
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
180
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
820
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Documentation Writing (for coders)
carmenintech
72
4.9k
Six Lessons from altMBA
skipperchong
28
3.9k
Into the Great Unknown - MozCon
thekraken
40
1.9k
Bash Introduction
62gerente
613
210k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Why Our Code Smells
bkeepers
PRO
336
57k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
510
Transcript
1 統計的機械翻訳における 地名の汎化の影響 長岡技術科学大学 電気系 山本研究室 05131586 関 拓也
2 統計的機械翻訳とは 大量の対訳文 対訳句 単語の並び 学習 翻訳知識
3 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により
翻訳精度が低下 1. 対訳が無い 2. 配置すべき位置がわからない 新潟 go to ? ? ? . go to . 新潟 新潟 へ 。 行く I 翻訳
4 目的及び既存手法 • 目的 未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])
1) 未知の地名を学習データに 頻出する地名に置き換えて翻訳 2) 置き換えた地名を目的の地名に 置き換える
5 既存手法 : 問題点 • 翻訳知識を十分に利用できない 例 ) 「新潟」が未知の地名の場合
新潟 まで 行く 大阪 まで 行く 対訳句 置き換え 東京 頻出する地名 東京 まで 行く 翻訳 既存手法 大阪 まで 行く 翻訳 優良な翻訳 東京 まで 行く 入力文 )
6 提案手法 • 翻訳知識中の地名の汎化を提案 1. より長い対訳句を使用した翻訳 ・句内では単語の並びが正しい ・正しい訳語が選択される可能性が高い
2. 地名が配置されるべき位置への配置 「 PLACE 」 go to . 新潟 「地名」 へ 汎化 「 PLACE 」 へ 翻訳 翻訳 「地名」 to 「 PLACE 」 to
7 • フレーズテーブル • 言語モデル ( 翻訳先の文らしさを表すモデル ) ※ N-gram
モデル 翻訳知識 日本 ||| japan ||| 日英方向 ||| 英日方向 対訳句 翻訳確率 japan is ||| 0.01 単語列 生起確率
8 手法概要 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス
地名対訳辞書 の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A
9 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 学習 A
10 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス
フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 B 地名対訳辞書 の作成
11 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 C
12 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 D
13 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 学習 (1/2) A
14 学習 (2/2) • 言語モデル ( 単語 5-gram の N-gram
モデル ) ・「英語の原形」「英語の品詞」を作成 • 翻訳モデル ・「日本語の原形と品詞」 ・「英語の原形と品詞」 日本 名詞 - 固有名詞 - 地域 - 国 へ 助詞 - 格助詞 - 一般 行く 動詞 - 自立 go VV to TO japan NP 英語 日本語 }を作成 A
15 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス
フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 (1/2) B 地名対訳辞書 の作成
16 「地名対訳辞書」の作成 (2/2) • フレーズテーブルを用いて作成 1. 「日本語 1 単語」−「英語
1 単語」対応の句 2. 日本語の品詞が ・「名詞 - 固有名詞 - 地域 - 一般」 ・「名詞 - 固有名詞 - 地域 - 国」 3. 英語の品詞が ・「 N( 名詞 ) 」 ・「 J( 形容詞 ) 」 4. 「日英方向」と「英日方向」の 翻訳確率の積が 0.01 以上 B
17 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 (1/2) C
18 フレーズテーブルの汎化 (2/2) • 「地名対訳辞書」を用いて汎化 ・日本語句内の地名を「 PLACE|PLACE 」 ・英語句内の地名を ・「
PLACE|N 」 ・「 PLACE| J 」 日本 | 名詞 - 固有名詞 - 地域 - 国 japan|NP PLACE|PLACE PLACE|N 日本語 英語 汎化 C
19 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 (1/2) D
20 言語モデルの汎化 (2/2) • 汎化した学習データ ( 英語文 ) を 学習に用いる
• 「地名対訳辞書」を用いて汎化 Japanese| JJ student|NN a|DT 汎化 PLACE| J student|NN a|DT D D
21 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法
(A): 「未知の地名」や「既知の地名」を含む (B): 含まれる全ての地名が未知 翻訳方法 モデル 評価データ 通常翻訳 通常 (A) 未知語翻訳 通常 (B) 既存手法 通常 (B) 提案手法 汎化 (B)
22 評価実験 : 使用データ • 学習データ ( 対訳文 )
・ CREST コーパス: 372,985 文対 • 評価データ ( 地名を含む対訳文 ) ・学習に含まれない (open) 対訳文 1000 対 • 評価方法 ・ BLEU による翻訳精度の自動評価 ※ BLEU 値が高い方が翻訳精度は高い。
23 実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳 ※句の長さ :
翻訳に使用された地名を含む句の平均単語数 2. 地名が配置されるべき位置への配置 翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86
24 考察:「地名対訳辞書」の問題 • 地名を含む対訳句の内 45.0% しか汎化できていない • 原因 ・学習データに頻出する
1 対多対訳の「地名」が未登録 例 ) 「ニューヨーク」 | 「 new york 」
25 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86
14.55 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1): (2): 翻訳精度が向上 「地域 - 一般」・「地域 - 国」 「地域 - 一般」 汎化 PLACE 「地域 - 国」 汎化 COUNTRY PLACE 考察 : 汎化するカテゴリの問題
26 • 未知の地名を含む文の翻訳精度改善に有効 ・より長い句を用いた翻訳 ・地名が配置されるべき位置への配置 • 提案手法の改善のために ・「地名対訳辞書」の網羅性を上げる
・適切なカテゴリに単語を分け、 別々に汎化を行う まとめ
27 終わり
28 使用ツール及び言語資源 • デコーダ :Moses • 単語アライメント :GIZA++ • 言語モデル
:IRST LM • 日本語形態素解析 :ChaSen • 英語形態素解析 :TreeTagger • 対訳コーパス :CREST コーパス 372,985 文対 • 対訳辞書 : 英辞郎