Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室 文献紹介ゼミ その2
Search
takegue
May 15, 2014
Technology
0
160
自然言語処理研究室 文献紹介ゼミ その2
自然言語処理研究室 文献紹介ゼミ2014年度論文紹介依存関係確率モデルを用いた統計的句アライメント
takegue
May 15, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
880
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
910
Sparse Overcomplete Word Vector Representations
takegue
0
240
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
230
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
90
Other Decks in Technology
See All in Technology
『君の名は』と聞く君の名は。 / Your name, you who asks for mine.
nttcom
1
120
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
17
2.7k
AI with TiDD
shiraji
1
270
MariaDB Connector/C のcaching_sha2_passwordプラグインの仕様について
boro1234
0
1k
Amazon Quick Suite で始める手軽な AI エージェント
shimy
1
1.8k
Authlete で実装する MCP OAuth 認可サーバー #CIMD の実装を添えて
watahani
0
160
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
1
400
_第4回__AIxIoTビジネス共創ラボ紹介資料_20251203.pdf
iotcomjpadmin
0
130
AI駆動開発ライフサイクル(AI-DLC)の始め方
ryansbcho79
0
160
Lookerで実現するセキュアな外部データ提供
zozotech
PRO
0
200
日本Rubyの会: これまでとこれから
snoozer05
PRO
5
230
TED_modeki_共創ラボ_20251203.pdf
iotcomjpadmin
0
150
Featured
See All Featured
A Tale of Four Properties
chriscoyier
162
23k
How to train your dragon (web standard)
notwaldorf
97
6.4k
Side Projects
sachag
455
43k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
400
Facilitating Awesome Meetings
lara
57
6.7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
66
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
580
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
91k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Transcript
自然言語処理研究室 文献紹介ゼミ 2014年度 論文紹介 依存関係確率モデルを 用いた統計的句アライメント 長岡技術科学大学 B4 竹野 峻輔
• 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用い た統計的句アライメント,” 自然言語処理 = J. Nat.
Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要 語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際 に最も重要 なことは,言語の構造情報を利用することと,一対多もしくは 多対多の対応が生成 できることである.本論文では両言語文の依存構 造木上での単語や句の依存関係を モデル化した新しい句アライメント手 法を提案する.依存関係モデルは木構造上で のreorderingモデルという ことができ,非局所的な語順変化を正確に扱うことがで きる.これは文を 単語列として扱う既存の単語アライメント手法にはない利点であ る.また 提案モデルはヒューリスティックなルールを一切用いずに,句となるべき 単 位の推定を自動的に行うことができる.アライメント実験では,既存の単語 アラ イメント手法と比較して,提案手法にではアライメントの精度をF値で 8.5ポイン ト向上させることができた. ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:依存関係確率モデルを用いた統計的句アライメント
• 日英文のアライメント – 両言語の依存構造解析結果を利用したアライメント – ヒューリスティックなルールを用いずに句を自動推定 – 双方向の句アライメントで ロバストで高精度な手法 ⇒
従来の手法より8.5ポイントのF値の向上 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献の目的と貢献
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデル – 単語列アライメントモデルと提案手法の比較 • 単語列アライメントより柔軟で
精度の高いアライメントが取れる • 言語対に因らないロバストなアライメント ※図は論文中より抜粋
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – IBMモデル[Brown et al.
1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率 アライメント確率 単語翻訳確率の積 単語eaj ⇒ 単語 fj になる確率 アライメントの相対的な位置を考慮した確率 一貫性のため e→f と f→e の場合を考慮し アライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。 本研究におけるベースラインとなる
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – 提案モデル 日→英のアライメント 英→日のアライメント
両方向のアライメントを同時に考慮 目的関数;データに対する対数尤度
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – パラメータ推定 パラメータの推定はEMアルゴリズム E
step:アライメントの事後確率の計算 M step:パラメータの更新
• 単語翻訳確率の代わりに句翻訳確率の導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 句翻訳確率の導入
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ アライメント実験 – 単語列アライメントとの比較 JST日英抄録コーパス(100万対訳文)より475で人手でアライメントを付与 ルール付加なしで67.06,
ルール付加で70.76 8.5ポイントのF値の 向上を確認
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ • 依存構造関係を利用したアライメントにより精度の向 上が図れた。 –
日本語 – 英語間のように言語体系が大きく異なる場合に 有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな 手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定