Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介ゼミ(6月分)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
June 26, 2014
380
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介ゼミ(6月分)
miyanishi
June 26, 2014
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
WCS-LA-2024
lcolladotor
0
620
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
Ruling the World: When Life Gets Gamed
codingconduct
0
250
The Art of Programming - Codeland 2020
erikaheidi
57
14k
The Invisible Side of Design
smashingmag
302
52k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Code Review Best Practice
trishagee
74
20k
Done Done
chrislema
186
16k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
Design in an AI World
tapps
1
230
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: ParaSense or How to Parallel Corpora for Word
Sense Disambiguation 著者: Els Lefever Veronique Hoste Martine De Cock Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 手動アライメントの有無による結果の比較 02
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Multilingual classificationーbased
対訳コーパスを使用 バイリンガルWSDモデル WordNetと対訳コーパスの併用 03
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 04
入力言語:英語 使用言語:5つの言語を使用 フランス語 イタリア語 スペイン語
ドイツ語 オランダ語 使用コーパス: Europarlコーパス 英語とヨーロッパ諸国語の対訳コーパス 05
Europarlコーパス(※) のアライメント 入力・使用言語についてアライメント GIZA++を使用 分類器を5種類用意
使用言語に対して1つずつ分類器を用意 Memory-based learning(MBL)を使用 Jefferey-Divergence距離でパラメータ決定 06
それぞれの分類器の学習 学習にはアライメント結果を使用 分類器の言語のアライメント結果を使用 実験 入力された英文中の多義語の意味を判別
それぞれの分類器の結果を比較 07
2種類のアライメントを試す 全自動で単語アライメントを行う 人手で単語アライメントを行う 学習データ生成の前処理 英文には簡単な構文解析を行う
品詞タグ・チャンクを用いる 08
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
提案システムの素性は3種類 1:full feature vector 2:Translation feature
3:Local context feature 比較するシステム Baseline:高頻度語義を選択 T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
テストセット SemEval”CLWSD”のテストセットを使用 テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel
Corpus ▪ BNC 評価 Precision:SemEvalで使われた精度 Accuracy:正解数をテスト文数で割った値 11
Precisionで評価した場合 12
Precisionで評価した場合 12 自動アライメント 手動アライメント
Precisionで評価した場合 12
Accuracyで評価した場合 13
スペイン語以外では圧倒的に良い結果 自動アライメントでも従来手法に勝利 対訳コーパスの乏しさについて 現在手に入る量は乏しい 今後
大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 15
提案手法の効果 従来手法と同等もしくはそれ以上の結果 素性が単純なので改善の余地あり アライメント方法について 自動でも手動と大差ない結果
言語による結果の比較 英語-スペイン語間では従来手法が上 従来手法より言語による差が少ない 16