Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的機械翻訳における地名の汎化の影響
Search
自然言語処理研究室
March 31, 2009
Research
0
82
統計的機械翻訳における地名の汎化の影響
関 拓也. 統計的機械翻訳における地名の汎化の影響. 長岡技術科学大学課題研究報告書 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
110
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
510
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
2
210
Language Models Are Implicitly Continuous
eumesy
PRO
0
360
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
130
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
160
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
220
CoRL2025速報
rpc
3
3.6k
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
440
「リアル×スキマ時間」を活用したUXリサーチ 〜新規事業を前に進めるためのUXリサーチプロセスの設計〜
techtekt
PRO
0
190
音声感情認識技術の進展と展望
nagase
0
400
Featured
See All Featured
Getting science done with accelerated Python computing platforms
jacobtomlinson
0
73
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
47k
We Are The Robots
honzajavorek
0
110
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
GraphQLとの向き合い方2022年版
quramy
50
14k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
0
840
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
390
A better future with KSS
kneath
240
18k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
61
Thoughts on Productivity
jonyablonski
73
5k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
72
Transcript
1 統計的機械翻訳における 地名の汎化の影響 長岡技術科学大学 電気系 山本研究室 05131586 関 拓也
2 統計的機械翻訳とは 大量の対訳文 対訳句 単語の並び 学習 翻訳知識
3 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により
翻訳精度が低下 1. 対訳が無い 2. 配置すべき位置がわからない 新潟 go to ? ? ? . go to . 新潟 新潟 へ 。 行く I 翻訳
4 目的及び既存手法 • 目的 未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])
1) 未知の地名を学習データに 頻出する地名に置き換えて翻訳 2) 置き換えた地名を目的の地名に 置き換える
5 既存手法 : 問題点 • 翻訳知識を十分に利用できない 例 ) 「新潟」が未知の地名の場合
新潟 まで 行く 大阪 まで 行く 対訳句 置き換え 東京 頻出する地名 東京 まで 行く 翻訳 既存手法 大阪 まで 行く 翻訳 優良な翻訳 東京 まで 行く 入力文 )
6 提案手法 • 翻訳知識中の地名の汎化を提案 1. より長い対訳句を使用した翻訳 ・句内では単語の並びが正しい ・正しい訳語が選択される可能性が高い
2. 地名が配置されるべき位置への配置 「 PLACE 」 go to . 新潟 「地名」 へ 汎化 「 PLACE 」 へ 翻訳 翻訳 「地名」 to 「 PLACE 」 to
7 • フレーズテーブル • 言語モデル ( 翻訳先の文らしさを表すモデル ) ※ N-gram
モデル 翻訳知識 日本 ||| japan ||| 日英方向 ||| 英日方向 対訳句 翻訳確率 japan is ||| 0.01 単語列 生起確率
8 手法概要 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス
地名対訳辞書 の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A
9 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 学習 A
10 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス
フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 B 地名対訳辞書 の作成
11 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 C
12 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 D
13 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 学習 (1/2) A
14 学習 (2/2) • 言語モデル ( 単語 5-gram の N-gram
モデル ) ・「英語の原形」「英語の品詞」を作成 • 翻訳モデル ・「日本語の原形と品詞」 ・「英語の原形と品詞」 日本 名詞 - 固有名詞 - 地域 - 国 へ 助詞 - 格助詞 - 一般 行く 動詞 - 自立 go VV to TO japan NP 英語 日本語 }を作成 A
15 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス
フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 (1/2) B 地名対訳辞書 の作成
16 「地名対訳辞書」の作成 (2/2) • フレーズテーブルを用いて作成 1. 「日本語 1 単語」−「英語
1 単語」対応の句 2. 日本語の品詞が ・「名詞 - 固有名詞 - 地域 - 一般」 ・「名詞 - 固有名詞 - 地域 - 国」 3. 英語の品詞が ・「 N( 名詞 ) 」 ・「 J( 形容詞 ) 」 4. 「日英方向」と「英日方向」の 翻訳確率の積が 0.01 以上 B
17 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 (1/2) C
18 フレーズテーブルの汎化 (2/2) • 「地名対訳辞書」を用いて汎化 ・日本語句内の地名を「 PLACE|PLACE 」 ・英語句内の地名を ・「
PLACE|N 」 ・「 PLACE| J 」 日本 | 名詞 - 固有名詞 - 地域 - 国 japan|NP PLACE|PLACE PLACE|N 日本語 英語 汎化 C
19 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 (1/2) D
20 言語モデルの汎化 (2/2) • 汎化した学習データ ( 英語文 ) を 学習に用いる
• 「地名対訳辞書」を用いて汎化 Japanese| JJ student|NN a|DT 汎化 PLACE| J student|NN a|DT D D
21 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法
(A): 「未知の地名」や「既知の地名」を含む (B): 含まれる全ての地名が未知 翻訳方法 モデル 評価データ 通常翻訳 通常 (A) 未知語翻訳 通常 (B) 既存手法 通常 (B) 提案手法 汎化 (B)
22 評価実験 : 使用データ • 学習データ ( 対訳文 )
・ CREST コーパス: 372,985 文対 • 評価データ ( 地名を含む対訳文 ) ・学習に含まれない (open) 対訳文 1000 対 • 評価方法 ・ BLEU による翻訳精度の自動評価 ※ BLEU 値が高い方が翻訳精度は高い。
23 実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳 ※句の長さ :
翻訳に使用された地名を含む句の平均単語数 2. 地名が配置されるべき位置への配置 翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86
24 考察:「地名対訳辞書」の問題 • 地名を含む対訳句の内 45.0% しか汎化できていない • 原因 ・学習データに頻出する
1 対多対訳の「地名」が未登録 例 ) 「ニューヨーク」 | 「 new york 」
25 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86
14.55 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1): (2): 翻訳精度が向上 「地域 - 一般」・「地域 - 国」 「地域 - 一般」 汎化 PLACE 「地域 - 国」 汎化 COUNTRY PLACE 考察 : 汎化するカテゴリの問題
26 • 未知の地名を含む文の翻訳精度改善に有効 ・より長い句を用いた翻訳 ・地名が配置されるべき位置への配置 • 提案手法の改善のために ・「地名対訳辞書」の網羅性を上げる
・適切なカテゴリに単語を分け、 別々に汎化を行う まとめ
27 終わり
28 使用ツール及び言語資源 • デコーダ :Moses • 単語アライメント :GIZA++ • 言語モデル
:IRST LM • 日本語形態素解析 :ChaSen • 英語形態素解析 :TreeTagger • 対訳コーパス :CREST コーパス 372,985 文対 • 対訳辞書 : 英辞郎