Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室 文献紹介ゼミ その2
Search
takegue
May 15, 2014
Technology
0
160
自然言語処理研究室 文献紹介ゼミ その2
自然言語処理研究室 文献紹介ゼミ2014年度論文紹介依存関係確率モデルを用いた統計的句アライメント
takegue
May 15, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
870
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
910
Sparse Overcomplete Word Vector Representations
takegue
0
220
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
220
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
80
Other Decks in Technology
See All in Technology
re:Inventに行くまでにやっておきたいこと
nagisa53
0
770
デザインとエンジニアリングの架け橋を目指す OPTiMのデザインシステム「nucleus」の軌跡と広げ方
optim
0
120
個人でデジタル庁の デザインシステムをVue.jsで 作っている話
nishiharatsubasa
3
5.2k
GCASアップデート(202508-202510)
techniczna
0
110
RemoteFunctionを使ったコロケーション
mkazutaka
1
150
Retrospectiveを振り返ろう
nakasho
0
140
20251027_findyさん_音声エージェントLT
almondo_event
2
500
ストレージエンジニアの仕事と、近年の計算機について / 第58回 情報科学若手の会
pfn
PRO
4
910
ゼロコード計装導入後のカスタム計装でさらに可観測性を高めよう
sansantech
PRO
1
560
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
4
2k
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
300
AI連携の新常識! 話題のMCPをはじめて学ぶ!
makoakiba
0
160
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
116
20k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Faster Mobile Websites
deanohume
310
31k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
GraphQLとの向き合い方2022年版
quramy
49
14k
Docker and Python
trallard
46
3.6k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Thoughts on Productivity
jonyablonski
71
4.9k
Transcript
自然言語処理研究室 文献紹介ゼミ 2014年度 論文紹介 依存関係確率モデルを 用いた統計的句アライメント 長岡技術科学大学 B4 竹野 峻輔
• 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用い た統計的句アライメント,” 自然言語処理 = J. Nat.
Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要 語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際 に最も重要 なことは,言語の構造情報を利用することと,一対多もしくは 多対多の対応が生成 できることである.本論文では両言語文の依存構 造木上での単語や句の依存関係を モデル化した新しい句アライメント手 法を提案する.依存関係モデルは木構造上で のreorderingモデルという ことができ,非局所的な語順変化を正確に扱うことがで きる.これは文を 単語列として扱う既存の単語アライメント手法にはない利点であ る.また 提案モデルはヒューリスティックなルールを一切用いずに,句となるべき 単 位の推定を自動的に行うことができる.アライメント実験では,既存の単語 アラ イメント手法と比較して,提案手法にではアライメントの精度をF値で 8.5ポイン ト向上させることができた. ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:依存関係確率モデルを用いた統計的句アライメント
• 日英文のアライメント – 両言語の依存構造解析結果を利用したアライメント – ヒューリスティックなルールを用いずに句を自動推定 – 双方向の句アライメントで ロバストで高精度な手法 ⇒
従来の手法より8.5ポイントのF値の向上 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献の目的と貢献
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデル – 単語列アライメントモデルと提案手法の比較 • 単語列アライメントより柔軟で
精度の高いアライメントが取れる • 言語対に因らないロバストなアライメント ※図は論文中より抜粋
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – IBMモデル[Brown et al.
1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率 アライメント確率 単語翻訳確率の積 単語eaj ⇒ 単語 fj になる確率 アライメントの相対的な位置を考慮した確率 一貫性のため e→f と f→e の場合を考慮し アライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。 本研究におけるベースラインとなる
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – 提案モデル 日→英のアライメント 英→日のアライメント
両方向のアライメントを同時に考慮 目的関数;データに対する対数尤度
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – パラメータ推定 パラメータの推定はEMアルゴリズム E
step:アライメントの事後確率の計算 M step:パラメータの更新
• 単語翻訳確率の代わりに句翻訳確率の導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 句翻訳確率の導入
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ アライメント実験 – 単語列アライメントとの比較 JST日英抄録コーパス(100万対訳文)より475で人手でアライメントを付与 ルール付加なしで67.06,
ルール付加で70.76 8.5ポイントのF値の 向上を確認
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ • 依存構造関係を利用したアライメントにより精度の向 上が図れた。 –
日本語 – 英語間のように言語体系が大きく異なる場合に 有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな 手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定