Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室 文献紹介ゼミ その2
Search
takegue
May 15, 2014
Technology
0
150
自然言語処理研究室 文献紹介ゼミ その2
自然言語処理研究室 文献紹介ゼミ2014年度論文紹介依存関係確率モデルを用いた統計的句アライメント
takegue
May 15, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
800
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
11k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.1k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
940
Rettyにおけるデータ活用について
takegue
0
820
Sparse Overcomplete Word Vector Representations
takegue
0
180
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
190
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
98
Dependency-based empty category detection via phrase structure trees
takegue
0
62
Other Decks in Technology
See All in Technology
よく聞くけど使ったことないソフトウェアNo.1 KafkaとSnowflake
foursue
4
510
Cypress or Playwright?
rainerhahnekamp
0
170
本当のAWS基礎
toru_kubota
1
620
MixIT 2024 - Pulumi : Gérer son infra avec son langage de programmation préféré
ju_hnny5
1
120
Building a RAG-poweredAI chat appwith Python and VS Code
pamelafox
0
150
Building Dashboards as a Hobby
egmc
0
370
ゼロから始めるVue.jsコミュニティ貢献 / first-vuejs-community-contribution-link-and-motivation
lmi
1
150
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
lycorptech_jp
PRO
8
620
M5stackで使用できるpHセンサの開発
shinrinakamura
0
120
Improve Your Development Workflow with Gemini Code Assist
meteatamel
0
130
Além do else! Categorizando Pokemóns com Pattern Matching no JavaScript
wmsbill
0
710
プロンプトエンジニアリングでがんばらない-Agentic Workflow へ-近藤憲児
kenjikondobai
6
1.2k
Featured
See All Featured
A better future with KSS
kneath
231
16k
A designer walks into a library…
pauljervisheath
201
23k
Teambox: Starting and Learning
jrom
128
8.4k
The Invisible Side of Design
smashingmag
294
49k
GitHub's CSS Performance
jonrohan
1025
450k
Raft: Consensus for Rubyists
vanstee
133
6.3k
The Mythical Team-Month
searls
216
42k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
Fantastic passwords and where to find them - at NoRuKo
philnash
39
2.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
275
13k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
Pencils Down: Stop Designing & Start Developing
hursman
117
11k
Transcript
自然言語処理研究室 文献紹介ゼミ 2014年度 論文紹介 依存関係確率モデルを 用いた統計的句アライメント 長岡技術科学大学 B4 竹野 峻輔
• 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用い た統計的句アライメント,” 自然言語処理 = J. Nat.
Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要 語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際 に最も重要 なことは,言語の構造情報を利用することと,一対多もしくは 多対多の対応が生成 できることである.本論文では両言語文の依存構 造木上での単語や句の依存関係を モデル化した新しい句アライメント手 法を提案する.依存関係モデルは木構造上で のreorderingモデルという ことができ,非局所的な語順変化を正確に扱うことがで きる.これは文を 単語列として扱う既存の単語アライメント手法にはない利点であ る.また 提案モデルはヒューリスティックなルールを一切用いずに,句となるべき 単 位の推定を自動的に行うことができる.アライメント実験では,既存の単語 アラ イメント手法と比較して,提案手法にではアライメントの精度をF値で 8.5ポイン ト向上させることができた. ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:依存関係確率モデルを用いた統計的句アライメント
• 日英文のアライメント – 両言語の依存構造解析結果を利用したアライメント – ヒューリスティックなルールを用いずに句を自動推定 – 双方向の句アライメントで ロバストで高精度な手法 ⇒
従来の手法より8.5ポイントのF値の向上 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献の目的と貢献
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデル – 単語列アライメントモデルと提案手法の比較 • 単語列アライメントより柔軟で
精度の高いアライメントが取れる • 言語対に因らないロバストなアライメント ※図は論文中より抜粋
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – IBMモデル[Brown et al.
1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率 アライメント確率 単語翻訳確率の積 単語eaj ⇒ 単語 fj になる確率 アライメントの相対的な位置を考慮した確率 一貫性のため e→f と f→e の場合を考慮し アライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。 本研究におけるベースラインとなる
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – 提案モデル 日→英のアライメント 英→日のアライメント
両方向のアライメントを同時に考慮 目的関数;データに対する対数尤度
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – パラメータ推定 パラメータの推定はEMアルゴリズム E
step:アライメントの事後確率の計算 M step:パラメータの更新
• 単語翻訳確率の代わりに句翻訳確率の導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 句翻訳確率の導入
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ アライメント実験 – 単語列アライメントとの比較 JST日英抄録コーパス(100万対訳文)より475で人手でアライメントを付与 ルール付加なしで67.06,
ルール付加で70.76 8.5ポイントのF値の 向上を確認
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ • 依存構造関係を利用したアライメントにより精度の向 上が図れた。 –
日本語 – 英語間のように言語体系が大きく異なる場合に 有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな 手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定