Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室 文献紹介ゼミ その2
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
takegue
May 15, 2014
Technology
160
0
Share
自然言語処理研究室 文献紹介ゼミ その2
自然言語処理研究室 文献紹介ゼミ2014年度論文紹介依存関係確率モデルを用いた統計的句アライメント
takegue
May 15, 2014
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
900
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
930
Sparse Overcomplete Word Vector Representations
takegue
0
260
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
140
Dependency-based empty category detection via phrase structure trees
takegue
0
100
Other Decks in Technology
See All in Technology
GitHub Advanced Security × Defender for Cloudで開発とSecOpsのサイロを超える: コードとクラウドをつなぐ、開発プラットフォームのセキュリティ
yuriemori
1
120
【関西電力KOI×VOLTMIND 生成AIハッカソン】空間AIブレイン ~⼤阪おばちゃんフィジカルAIに続く道~
tanakaseiya
0
110
Even G2 クイックスタートガイド(日本語版)
vrshinobi1
0
190
OPENLOGI Company Profile for engineer
hr01
1
62k
非同期・イベント駆動処理の分散トレーシングの繋げ方
ichikawaken
1
250
Microsoft Fabricで考える非構造データのAI活用
ryomaru0825
0
610
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
230
Network Firewall Proxyで 自前プロキシを消し去ることができるのか
gusandayo
0
170
Move Fast and Break Things: 10 in 20
ramimac
0
110
Datadog で実現するセキュリティ対策 ~オブザーバビリティとセキュリティを 一緒にやると何がいいのか~
a2ush
0
190
タスク管理も1on1も、もう「管理」じゃない - KiroとBedrock AgentCoreで変わった“判断の仕事”
yusukeshimizu
0
160
40代からのアウトプット ― 経験は価値ある学びに変わる / 20260404 Naoki Takahashi
shift_evolve
PRO
4
760
Featured
See All Featured
Music & Morning Musume
bryan
47
7.1k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
350
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
260
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
470
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Speed Design
sergeychernyshev
33
1.6k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
ラッコキーワード サービス紹介資料
rakko
1
2.9M
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
自然言語処理研究室 文献紹介ゼミ 2014年度 論文紹介 依存関係確率モデルを 用いた統計的句アライメント 長岡技術科学大学 B4 竹野 峻輔
• 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用い た統計的句アライメント,” 自然言語処理 = J. Nat.
Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要 語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際 に最も重要 なことは,言語の構造情報を利用することと,一対多もしくは 多対多の対応が生成 できることである.本論文では両言語文の依存構 造木上での単語や句の依存関係を モデル化した新しい句アライメント手 法を提案する.依存関係モデルは木構造上で のreorderingモデルという ことができ,非局所的な語順変化を正確に扱うことがで きる.これは文を 単語列として扱う既存の単語アライメント手法にはない利点であ る.また 提案モデルはヒューリスティックなルールを一切用いずに,句となるべき 単 位の推定を自動的に行うことができる.アライメント実験では,既存の単語 アラ イメント手法と比較して,提案手法にではアライメントの精度をF値で 8.5ポイン ト向上させることができた. ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:依存関係確率モデルを用いた統計的句アライメント
• 日英文のアライメント – 両言語の依存構造解析結果を利用したアライメント – ヒューリスティックなルールを用いずに句を自動推定 – 双方向の句アライメントで ロバストで高精度な手法 ⇒
従来の手法より8.5ポイントのF値の向上 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献の目的と貢献
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデル – 単語列アライメントモデルと提案手法の比較 • 単語列アライメントより柔軟で
精度の高いアライメントが取れる • 言語対に因らないロバストなアライメント ※図は論文中より抜粋
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – IBMモデル[Brown et al.
1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率 アライメント確率 単語翻訳確率の積 単語eaj ⇒ 単語 fj になる確率 アライメントの相対的な位置を考慮した確率 一貫性のため e→f と f→e の場合を考慮し アライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。 本研究におけるベースラインとなる
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – 提案モデル 日→英のアライメント 英→日のアライメント
両方向のアライメントを同時に考慮 目的関数;データに対する対数尤度
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – パラメータ推定 パラメータの推定はEMアルゴリズム E
step:アライメントの事後確率の計算 M step:パラメータの更新
• 単語翻訳確率の代わりに句翻訳確率の導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 句翻訳確率の導入
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
• アライメント確率の代わりに依存関係確率を導入 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 依存関係確率の導入 rel(ep ,
ec ) : 対応句の関係経路(親[p]、子[c]、同じ[SAME]、孫(c;c)
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定
句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ アライメント実験 – 単語列アライメントとの比較 JST日英抄録コーパス(100万対訳文)より475で人手でアライメントを付与 ルール付加なしで67.06,
ルール付加で70.76 8.5ポイントのF値の 向上を確認
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ
2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ • 依存構造関係を利用したアライメントにより精度の向 上が図れた。 –
日本語 – 英語間のように言語体系が大きく異なる場合に 有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな 手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定