Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
Search
自然言語処理研究室
March 31, 2011
Research
0
54
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
井手上 雅迪, 山本 和英, 内山 将夫, 隅田 英一郎. フレーズテーブルを用いた教師なし用語対訳抽出手法の比較. 言語処理学会第17回年次大会, pp.178-181 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
3
1.2k
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
130
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1.3k
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
540
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.3k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
380
LiDARセキュリティ最前線(2025年)
kentaroy47
0
110
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
490
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
190
Nullspace MPC
mizuhoaoki
1
700
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
320
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.1k
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
820
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
140
GitHub's CSS Performance
jonrohan
1032
470k
What does AI have to do with Human Rights?
axbom
PRO
0
2k
How to build a perfect <img>
jonoalderson
1
4.9k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
250
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Tell your own story through comics
letsgokoyo
1
800
Agile that works and the tools we love
rasmusluckow
331
21k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
150
Transcript
フレーズテーブルを用いた 教師なし用語対訳抽出手法の比較 井手上 雅迪 山本 和英 内山 将夫 隅田 英一郎
長岡技術科学大学 電気系 情報通信研究機構 MASTAR プロジェクト † † † ‡ ‡ ‡
研究背景 1 用語対訳の自動獲得 翻訳者支援 新しい対訳辞書の作成支援 自然言語処理タスクへの応用
機械翻訳の精度向上
関連研究 2 対訳コーパスの利用 (Itagaki et al., 2007) はフレーズテーブルから 専門用語対訳を抽出
フレーズテーブルは対訳の間違いを含んでい るので、分類器を学習させて間違いを除去 既存辞書の利用 要素合成法 (外池ら, 2007) 構成要素の訳語を辞書から獲得し連結 → 学習のための正解データが必要 → 対訳辞書が必要
目的 フレーズテーブルを用い て用語対訳を教師なしで抽 出 3つの尺度を使用し、そ れぞれで抽出した用語対訳 の比較 3
用語対訳抽出 4
尺度 Score F 5 正しい用語対訳を獲得するために 3つの尺度を使用 Fisher's exact test 対訳の信頼性
Score L 対数尤度比 (Loglikelihood Ratio) 構成要素同士の対応の強さ Score C CValue 用語が安定して出現する度合い
Fisher's exact test (Score_F) : 対訳の信頼性 (Howard et al., 2007)
は Fisher's exact test による有意性検定により、フレー ズテーブルから信頼性の低い対訳対 を除去 信頼性の高い用語対訳候補である 程、正しい用語対訳である可能性が 高いと仮定 Score F 6
Fisher's exact test (Score_F) C(J,E) C(J)-C(J,E) C(J) C(E)-C(J,E) N-C(J)-C(E)+C(J,E) N-C(J)
C(E) N-C(E) N N 対訳文数 C(J) 日本語側に J を含む対訳文数 C(E) 英語側に E を含む対訳文数 C(J,E) J と E を含む対訳文数 用語対訳候補 において T J , E
対数尤度比( Score_L ) (外池ら, 2007) は専門用語の訳語推定 において、構成要素の対応を考慮す ることは有効である可能性が高いと した。 フレーズベース統計的機械翻訳の語
対応を構成要素の対応とし、対応の 強さを考慮 : 構成要素の対応の強さ Score L 7
構成要素の対応 Moses (Koehn et al., 2007) による各語対応情報 各構成要素の対応の強さ → 構成要素
の同士が対訳文内でよく対応するか 8 訳語対内の対応 対訳文内 の対応
Score_L 語対応の集合 対応がない構成要素の集合 J1, e2 J1, e1 A j ,e
J3, e2 e3 J2 9 用語対訳候補 の対応例 T J , E A c 構成要素の対応毎に対応の強さを加算 (NULL) φ と対応
j_k と e_l に対応がある対訳文数+α j_k と e_l が出現する対訳文数+2α c に対応がない対訳文数+α
c が出現する対訳文数+2α Score_L T_{J,E} が出現した場合の j_k と e_l の対応の強さ 構成要素 c とφと の対応の強さ 10
CValue ( Score_C ) (Frantzi and Ananiadou, 1996) は入れ子構造 を持ったコロケーションを抽出するために
CValue を提案 用語対訳候補の両言語側ともCValueでの 順位が高ければ、用語対訳である可能性が 高いと仮定 Score C : 用語が安定して出現する度合い カラー デニム パンツ (CValue = 6.34) カラー デニム (2.0) デニム パンツ (60.33) 11 Score C = Average( 日本語側の順位, 英語側の順位 )
CValue (Score_C) |T| : 用語の構成要素数 n(T) : 用語の出現頻度 t(T) :
T を部分文字列として含む用語の延べ語数 c(T) : T を部分文字列として含む用語の異なり語数 ( カラーデニムパンツ,color denim pants ) = Score C 2732753 2 =1513
用語対訳抽出に適した計数 チェック 柄 が アクセント に なっ た カラー デニム
パンツ です 。 日本語用語候補 カラーデニムパンツ デニムパンツ 「デニムパンツ」が「カラーデニム パンツ」の部分文字列として出現 用語単体で使用されていない と考え、出現頻度を数えない 英語側についても部分文字列を考慮し、 Score_F と Score_L に適用 12
フレーズテーブルからパターンマッチで 抽出した用語対訳候補数 : 22,543 対 日英対訳コーパス (アパレル分野) : 約6万文対 実験と対訳精度評価
上位 1,000 対を用語対訳として抽出 A : 対訳として正しい A' : 文脈に依存する B : 部分的に正しい C : 対訳として正しくない 対訳精度評価基準 抽出した用語対訳から 無作為に100対を選び、 人手による対訳精度の 評価を行った。 13
対訳精度 A A' B C Score_F 43 25 24 8
Score_L 77 5 18 0 Score_C 78 6 14 2 Score'_F 71 18 8 3 Score'_L 79 4 17 0 Score_FLC 87 2 11 0 ※ アポストロフィのついた尺度名は部分文字列を考慮したもの フレーズテーブルから教師なしで 翻訳精度の高い用語対訳を抽出 14
各尺度で抽出した 用語対訳の比較 用語対訳の構成要素数、頻度 1000位毎の平均出現頻度 15
各尺度で抽出した 用語対訳の比較 16 1000位毎の平均構成要素数 (日本語側)
各尺度によって抽出された 用語対訳の特長 出現頻度 構成要素数 Score'_F 高い 少ない Score'_L 高い 多い
Score_C 低い 多い それぞれで異なる性質の用語対訳を抽出 17 用語対訳候補の 出現頻度が高い 構成要素同士の 強い対応を 多く持っている 構成要素数が 2以上でCValue が高い 各尺度で抽出された用語対訳は…… Score'_F Score'_L Score_C
部分文字列を考慮した 計数方法の効果 リング coloring 効果がある場合の例 間違った対訳 : Score_F : 35位
Score'_F : 21,676位 …カラーリングがシンプル… … coloring is simple… 形態素解析 カラー/リング Score_F は リング と coloring が同時に出現したと見なす。 悪影響を与える場合の例 スリーブ sleeve 正しい対訳 : Score_F : 749位 Score'_F : 5,433位 両言語とも部分文字列として出現しやすい → 頻度低下 18
Score_C Score'_L Score'_F 各尺度の統合 仮定: 各尺度の性質を持った用語対訳は高精度である 用語対訳候補 Score FLC 順位の平均
で用語対訳候補を再度順位付け Score FLC 最も対訳精度の良い用語対訳を抽出した 各尺度を計算 19
まとめ 3種類の尺度と部分文字列を考慮した 計数方法により、対訳精度の良い用語 対訳をフレーズテーブルから教師なし で抽出した。 20 各尺度で抽出した用語対訳は出現頻度 と構成要素数の2点で性質が異なる。 各尺度の統合により、最も良い対訳精 度の用語対訳を抽出した。