自然言語処理研究室文献紹介ゼミ　その２

May 15, 2014

160

自然言語処理研究室文献紹介ゼミ　その２

自然言語処理研究室文献紹介ゼミ２０１４年度論文紹介依存関係確率モデルを用いた統計的句アライメント

takegue

May 15, 2014

More Decks by takegue

See All by takegue

不自然言語の自然言語処理: コード補完を支える最新技術

1

910

つかわれるプラットフォーム〜デザイン編〜@DPM#2

2

12k

カルチャーとエンジニアリングをつなぐデータプラットフォーム

4

6.6k

toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄合同勉強会 2019)

4

1.2k

Rettyにおけるデータ活用について

0

940

Sparse Overcomplete Word Vector Representations

0

260

Aligning Sentences from Standard Wikipedia to Simple Wikipedia

0

250

High-Order Low-Rank Tensors for Semantic Role Labeling

0

140

Dependency-based empty category detection via phrase structure trees

0

110

Other Decks in Technology

See All in Technology

Unlocking the Apps

0

180

サイバーセキュリティ概論 / Introduction to Cybersecurity

PRO

0

130

Claude code Orchestra

3

920

実装は速くなった、レビューはどうする？ ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI

6

3k

Ruby::Boxでできること、Refinementsでできること

3

380

long-running-tasks

3

470

大学生が本気でDatabricksを活用してDiscordサークルをデータ駆動させてみた

1

330

GoとSIMDとWasmの今。

3

480

関西に縁あるMicrosoft MVPsが語るCopilotの未来

0

1k

探して_入れて_作って_使う_Agent_Skills___LT.pdf

2

160

【５分でわかる】セーフィーエンジニア向け会社紹介

0

50k

OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)

oracle4engineer

PRO

0

170

Featured

See All Featured

A brief & incomplete history of  UX Design for the World Wide Web: 1989–2019

2

390

It's Worth the Effort

188

29k

Why You Should Never Use an ORM

PRO

61

9.9k

How to build an LLM SEO readiness audit: a practical framework

1

760

Test your architecture with Archunit

1

2.3k

Designing Dashboards & Data Visualisations in Web Apps

231

55k

Claude Code どこまでも/ Claude Code Everywhere

65

56k

Bash Introduction

615

210k

The Hidden Cost of Media on the Web [PixelPalooza 2025]

2

320

Typedesign – Prime Four

42

3.1k

Heart Work Chapter 1 - Part 1

PRO

7

36k

How to make the Groovebox

2

2.2k

Transcript

自然言語処理研究室文献紹介ゼミ２０１４年度論文紹介依存関係確率モデルを用いた統計的句アライメント長岡技術科学大学 B4 竹野峻輔
• 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用いた統計的句アライメント,” 自然言語処理 = J. Nat.
Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際に最も重要なことは，言語の構造情報を利用することと，一対多もしくは多対多の対応が生成できることである．本論文では両言語文の依存構造木上での単語や句の依存関係をモデル化した新しい句アライメント手法を提案する．依存関係モデルは木構造上でのreorderingモデルということができ，非局所的な語順変化を正確に扱うことができる．これは文を単語列として扱う既存の単語アライメント手法にはない利点である．また提案モデルはヒューリスティックなルールを一切用いずに，句となるべき単位の推定を自動的に行うことができる．アライメント実験では，既存の単語アライメント手法と比較して，提案手法にではアライメントの精度をF値で 8.5ポイント向上させることができた． ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度 B４ゼミ文献紹介：依存関係確率モデルを用いた統計的句アライメント
• 日英文のアライメント – 両言語の依存構造解析結果を利用したアライメント – ヒューリスティックなルールを用いずに句を自動推定 – 双方向の句アライメントでロバストで高精度な手法 ⇒
従来の手法より8.5ポイントのF値の向上 2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ文献の目的と貢献
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ提案モデル – 単語列アライメントモデルと提案手法の比較 • 単語列アライメントより柔軟で
精度の高いアライメントが取れる • 言語対に因らないロバストなアライメント ※図は論文中より抜粋
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ提案モデルの概観 – ＩBMモデル[Brown et al.
1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率アライメント確率単語翻訳確率の積単語eaj ⇒ 単語 fj になる確率アライメントの相対的な位置を考慮した確率一貫性のため e→f と f→e の場合を考慮しアライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。本研究におけるベースラインとなる
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ提案モデルの概観 – 提案モデル日→英のアライメント英→日のアライメント
両方向のアライメントを同時に考慮目的関数；データに対する対数尤度
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ提案モデルの概観 – パラメータ推定パラメータの推定はEMアルゴリズム E
step：アライメントの事後確率の計算 M step：パラメータの更新
• 単語翻訳確率の代わりに句翻訳確率の導入 2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ句翻訳確率の導入
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ依存関係確率の導入 rel(ep ,
ec ) ：対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミ依存関係確率の導入 rel(ep ,
ec ) ：対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミトレーニング Step1:単語翻訳確率の推定 IBM Modelと同じアライメント確率は一定
句候補となる単語を調べる Step２:句翻訳確率依存関係確率の推定 Estep：初期アライメント生成アライメントの探索（山登り法）新たな句候補の生成 Mstep:パラメータ推定初期アライメントの生成：句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする山登り法：初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる新たな句候補の生成： NULL対応の句を組み合わせた新たな句候補の生成パラメータ推定：句翻訳確率の推定アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミトレーニング Step1:単語翻訳確率の推定 IBM Modelと同じアライメント確率は一定
句候補となる単語を調べる Step２:句翻訳確率依存関係確率の推定 Estep：初期アライメント生成アライメントの探索（山登り法）新たな句候補の生成 Mstep:パラメータ推定初期アライメントの生成：句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする山登り法：初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる新たな句候補の生成： NULL対応の句を組み合わせた新たな句候補の生成パラメータ推定：句翻訳確率の推定アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミトレーニング Step1:単語翻訳確率の推定 IBM Modelと同じアライメント確率は一定
句候補となる単語を調べる Step２:句翻訳確率依存関係確率の推定 Estep：初期アライメント生成アライメントの探索（山登り法）新たな句候補の生成 Mstep:パラメータ推定初期アライメントの生成：句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする山登り法：初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる新たな句候補の生成： NULL対応の句を組み合わせた新たな句候補の生成パラメータ推定：句翻訳確率の推定アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミアライメント実験 – 単語列アライメントとの比較 JST日英抄録コーパス(100万対訳文)より475で人手でアライメントを付与ルール付加なしで67.06,
ルール付加で70.76 8.5ポイントのF値の向上を確認
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミまとめ
2014/5/15 長岡技術科学大学自然言語処理研究室 2014年度Ｂ4ゼミまとめ • 依存構造関係を利用したアライメントにより精度の向上が図れた。 –
日本語 – 英語間のように言語体系が大きく異なる場合に有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定