Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的機械翻訳における地名の汎化の影響
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2009
Research
0
180
統計的機械翻訳における地名の汎化の影響
関 拓也, 山本 和英. 統計的機械翻訳における地名の汎化の影響. 言語処理学会第15回年次大会, pp.200-203 (2009.3)
自然言語処理研究室
March 31, 2009
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
880
LLMアプリケーションの透明性について
fufufukakaka
0
180
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
290
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
170
湯村研究室の紹介2025 / yumulab2025
yumulab
0
320
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
510
財務諸表監査のための逐次検定
masakat0
1
270
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
540
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4k
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.9k
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
520
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
180
Featured
See All Featured
Un-Boring Meetings
codingconduct
0
220
The agentic SEO stack - context over prompts
schlessera
0
680
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
150
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
How to build a perfect <img>
jonoalderson
1
5.2k
The Cult of Friendly URLs
andyhume
79
6.8k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
64
Fireside Chat
paigeccino
42
3.8k
Transcript
統計的機械翻訳における 地名の汎化の影響 長岡技術科学大学 関 拓也 , 山本 和英
未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により 翻訳精度が低下
1. 対訳が無い 2. 配置すべき位置がわからない 新潟 go to ? ? ? . go to . 新潟 新潟 へ 。 行く I 翻訳
目的及び既存手法 • 目的 未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])
1) 未知の地名を学習データに 頻出する地名に置き換えて翻訳 2) 置き換えた地名を目的の地名に 置き換える
既存手法 : 問題点 • 翻訳知識を十分に利用できない 例 ) 「新潟」が未知の地名の場合 新潟
へ 行く 大阪 へ 行く 対訳句 置き換え 東京 頻出する地名 東京 へ 行く 翻訳 既存手法 大阪 へ 行く 翻訳 優良な翻訳手法 東京 へ 行く 入力文 )
提案手法 • 翻訳知識中の地名の汎化を提案 1. より長い対訳句を使用した翻訳 ・句内では単語の並びが正しい ・正しい訳語が選択される可能性が高い
2. 地名が配置されるべき位置への配置 「 PLACE 」 go to . 新潟 「地名」 へ 汎化 「 PLACE 」 へ 翻訳 翻訳 「地名」 to 「 PLACE 」 to
手法概要 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書
の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス 学習 A B C D
学習 • 言語モデル (5-gram の N-gram モデル ) ・「英語の原形」「英語の品詞」を作成
• 翻訳モデル ・「日本語の原形と品詞」 ・「英語の原形と品詞」 日本 名詞 - 固有名詞 - 地域 - 国 へ 助詞 - 格助詞 - 一般 行く 動詞 - 自立 go VV to TO japan NP 英語 日本語 }を作成 A
「地名対訳辞書」の作成 • フレーズテーブルを用いて作成 1. 「日本語 1 単語」 - 「英語 1
単語」対応 2. 日本語の品詞が ・「名詞 - 固有名詞 - 地域 - 一般」 ・「名詞 - 固有名詞 - 地域 - 国」 3. 英語の品詞が ・「 N( 名詞 ) 」 ・「 J( 形容詞 ) 」 4. 「日英方向」と「英日方向」の 翻訳確率の積が 0.01 以上 B
フレーズテーブルの汎化 • 「地名対訳辞書」を用いて汎化 ・日本語句内の地名を 「 PLACE|PLACE 」 ・英語句内の地名を ・「 PLACE|N
」 ・「 PLACE|J 」 日本 | 名詞 - 固有名詞 - 地域 - 国 japan|NP PLACE|PLACE PLACE|N 日本語 英語 汎化 C
言語モデルの汎化 • 汎化した学習データ ( 英語文 ) を 用いて学習 • 「地名対訳辞書」を用いて汎化
Japanese| JJ student|NN a|DT 汎化 PLACE| J student|NN a|DT D
評価実験 : 評価方法 • 日英翻訳 • 翻訳手法 (A):
「地名」を含む文 (B):(A) の「地名」を「 PLACE 」に置き換えた文 翻訳方法 モデル 評価データ 通常翻訳 通常 (A) 未知語翻訳 通常 (B) 既存手法 通常 (B) 提案手法 汎化 (B)
実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳 ※句の長さ : 翻訳に使用された地名を含む句の平均単語数
2. 地名が配置されるべき位置への配置 (1000 文対 ) 翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86
考察:「地名対訳辞書」の問題 • 地名を含む対訳句の内 45.0% しか汎化できていない • 原因 ・学習データに頻出する
1 対多対訳の地名が未登録 例 ) 「ニューヨーク」 | 「 new york 」
翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86 14.55
考察 : 汎化するカテゴリの問題 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1): (2): 翻訳精度が向上 「地域 - 一般」・「地域 - 国」 「地域 - 一般」 汎化 PLACE 「地域 - 国」 汎化 COUNTRY PLACE
まとめ • 未知の地名を含む文の翻訳精度改善に有効 ・より長い句を用いた翻訳 ・地名が配置されるべき位置への配置 • 提案手法の改善のために ・「地名対訳辞書」の網羅性を上げる ・適切なカテゴリに単語を分け、 別々に汎化を行う