Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
Search
自然言語処理研究室
March 31, 2011
Research
0
52
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
井手上 雅迪, 山本 和英, 内山 将夫, 隅田 英一郎. フレーズテーブルを用いた教師なし用語対訳抽出手法の比較. 言語処理学会第17回年次大会, pp.178-181 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
近似動的計画入門
mickey_kubo
4
970
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
20250624_熊本経済同友会6月例会講演
trafficbrain
1
110
最適化と機械学習による問題解決
mickey_kubo
0
140
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
180
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
2.8k
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
250
Trust No Bot? Forging Confidence in AI for Software Engineering
tomzimmermann
1
240
Mathematics in the Age of AI and the 4 Generation University
hachama
0
160
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
480
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
72
4.9k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Visualization
eitanlees
146
16k
Thoughts on Productivity
jonyablonski
69
4.7k
Fireside Chat
paigeccino
37
3.5k
Faster Mobile Websites
deanohume
307
31k
It's Worth the Effort
3n
185
28k
Code Review Best Practice
trishagee
68
18k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
The Language of Interfaces
destraynor
158
25k
Typedesign – Prime Four
hannesfritz
42
2.7k
Transcript
フレーズテーブルを用いた 教師なし用語対訳抽出手法の比較 井手上 雅迪 山本 和英 内山 将夫 隅田 英一郎
長岡技術科学大学 電気系 情報通信研究機構 MASTAR プロジェクト † † † ‡ ‡ ‡
研究背景 1 用語対訳の自動獲得 翻訳者支援 新しい対訳辞書の作成支援 自然言語処理タスクへの応用
機械翻訳の精度向上
関連研究 2 対訳コーパスの利用 (Itagaki et al., 2007) はフレーズテーブルから 専門用語対訳を抽出
フレーズテーブルは対訳の間違いを含んでい るので、分類器を学習させて間違いを除去 既存辞書の利用 要素合成法 (外池ら, 2007) 構成要素の訳語を辞書から獲得し連結 → 学習のための正解データが必要 → 対訳辞書が必要
目的 フレーズテーブルを用い て用語対訳を教師なしで抽 出 3つの尺度を使用し、そ れぞれで抽出した用語対訳 の比較 3
用語対訳抽出 4
尺度 Score F 5 正しい用語対訳を獲得するために 3つの尺度を使用 Fisher's exact test 対訳の信頼性
Score L 対数尤度比 (Loglikelihood Ratio) 構成要素同士の対応の強さ Score C CValue 用語が安定して出現する度合い
Fisher's exact test (Score_F) : 対訳の信頼性 (Howard et al., 2007)
は Fisher's exact test による有意性検定により、フレー ズテーブルから信頼性の低い対訳対 を除去 信頼性の高い用語対訳候補である 程、正しい用語対訳である可能性が 高いと仮定 Score F 6
Fisher's exact test (Score_F) C(J,E) C(J)-C(J,E) C(J) C(E)-C(J,E) N-C(J)-C(E)+C(J,E) N-C(J)
C(E) N-C(E) N N 対訳文数 C(J) 日本語側に J を含む対訳文数 C(E) 英語側に E を含む対訳文数 C(J,E) J と E を含む対訳文数 用語対訳候補 において T J , E
対数尤度比( Score_L ) (外池ら, 2007) は専門用語の訳語推定 において、構成要素の対応を考慮す ることは有効である可能性が高いと した。 フレーズベース統計的機械翻訳の語
対応を構成要素の対応とし、対応の 強さを考慮 : 構成要素の対応の強さ Score L 7
構成要素の対応 Moses (Koehn et al., 2007) による各語対応情報 各構成要素の対応の強さ → 構成要素
の同士が対訳文内でよく対応するか 8 訳語対内の対応 対訳文内 の対応
Score_L 語対応の集合 対応がない構成要素の集合 J1, e2 J1, e1 A j ,e
J3, e2 e3 J2 9 用語対訳候補 の対応例 T J , E A c 構成要素の対応毎に対応の強さを加算 (NULL) φ と対応
j_k と e_l に対応がある対訳文数+α j_k と e_l が出現する対訳文数+2α c に対応がない対訳文数+α
c が出現する対訳文数+2α Score_L T_{J,E} が出現した場合の j_k と e_l の対応の強さ 構成要素 c とφと の対応の強さ 10
CValue ( Score_C ) (Frantzi and Ananiadou, 1996) は入れ子構造 を持ったコロケーションを抽出するために
CValue を提案 用語対訳候補の両言語側ともCValueでの 順位が高ければ、用語対訳である可能性が 高いと仮定 Score C : 用語が安定して出現する度合い カラー デニム パンツ (CValue = 6.34) カラー デニム (2.0) デニム パンツ (60.33) 11 Score C = Average( 日本語側の順位, 英語側の順位 )
CValue (Score_C) |T| : 用語の構成要素数 n(T) : 用語の出現頻度 t(T) :
T を部分文字列として含む用語の延べ語数 c(T) : T を部分文字列として含む用語の異なり語数 ( カラーデニムパンツ,color denim pants ) = Score C 2732753 2 =1513
用語対訳抽出に適した計数 チェック 柄 が アクセント に なっ た カラー デニム
パンツ です 。 日本語用語候補 カラーデニムパンツ デニムパンツ 「デニムパンツ」が「カラーデニム パンツ」の部分文字列として出現 用語単体で使用されていない と考え、出現頻度を数えない 英語側についても部分文字列を考慮し、 Score_F と Score_L に適用 12
フレーズテーブルからパターンマッチで 抽出した用語対訳候補数 : 22,543 対 日英対訳コーパス (アパレル分野) : 約6万文対 実験と対訳精度評価
上位 1,000 対を用語対訳として抽出 A : 対訳として正しい A' : 文脈に依存する B : 部分的に正しい C : 対訳として正しくない 対訳精度評価基準 抽出した用語対訳から 無作為に100対を選び、 人手による対訳精度の 評価を行った。 13
対訳精度 A A' B C Score_F 43 25 24 8
Score_L 77 5 18 0 Score_C 78 6 14 2 Score'_F 71 18 8 3 Score'_L 79 4 17 0 Score_FLC 87 2 11 0 ※ アポストロフィのついた尺度名は部分文字列を考慮したもの フレーズテーブルから教師なしで 翻訳精度の高い用語対訳を抽出 14
各尺度で抽出した 用語対訳の比較 用語対訳の構成要素数、頻度 1000位毎の平均出現頻度 15
各尺度で抽出した 用語対訳の比較 16 1000位毎の平均構成要素数 (日本語側)
各尺度によって抽出された 用語対訳の特長 出現頻度 構成要素数 Score'_F 高い 少ない Score'_L 高い 多い
Score_C 低い 多い それぞれで異なる性質の用語対訳を抽出 17 用語対訳候補の 出現頻度が高い 構成要素同士の 強い対応を 多く持っている 構成要素数が 2以上でCValue が高い 各尺度で抽出された用語対訳は…… Score'_F Score'_L Score_C
部分文字列を考慮した 計数方法の効果 リング coloring 効果がある場合の例 間違った対訳 : Score_F : 35位
Score'_F : 21,676位 …カラーリングがシンプル… … coloring is simple… 形態素解析 カラー/リング Score_F は リング と coloring が同時に出現したと見なす。 悪影響を与える場合の例 スリーブ sleeve 正しい対訳 : Score_F : 749位 Score'_F : 5,433位 両言語とも部分文字列として出現しやすい → 頻度低下 18
Score_C Score'_L Score'_F 各尺度の統合 仮定: 各尺度の性質を持った用語対訳は高精度である 用語対訳候補 Score FLC 順位の平均
で用語対訳候補を再度順位付け Score FLC 最も対訳精度の良い用語対訳を抽出した 各尺度を計算 19
まとめ 3種類の尺度と部分文字列を考慮した 計数方法により、対訳精度の良い用語 対訳をフレーズテーブルから教師なし で抽出した。 20 各尺度で抽出した用語対訳は出現頻度 と構成要素数の2点で性質が異なる。 各尺度の統合により、最も良い対訳精 度の用語対訳を抽出した。