Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介ゼミ(6月分)
Search
miyanishi
June 26, 2014
0
360
文献紹介ゼミ(6月分)
miyanishi
June 26, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Six Lessons from altMBA
skipperchong
22
3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
1
130
Statistics for Hackers
jakevdp
790
220k
Faster Mobile Websites
deanohume
300
30k
How GitHub (no longer) Works
holman
305
140k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
8
3.5k
Practical Orchestrator
shlominoach
183
9.8k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
The Invisible Side of Design
smashingmag
294
49k
Why Our Code Smells
bkeepers
PRO
331
56k
KATA
mclloyd
16
12k
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: ParaSense or How to Parallel Corpora for Word
Sense Disambiguation 著者: Els Lefever Veronique Hoste Martine De Cock Proceedings of Annual Meeting of ACL:shortpapers,2010,p317-322 01
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 手動アライメントの有無による結果の比較 02
対訳コーパスを用いた多義性解消 対訳コーパスさえあれば言語非依存 全自動 タグ付きコーパスのボトルネック解消 調査したこと
5つの言語の対訳コーパスで比較 従来手法と比較 アライメントの有無による結果の比較 02 Spanish以外の対訳コーパスを使用した場合、 従来手法に圧倒的に勝利!
最近の教師ありWSD 語義付与コーパスを使うと結果が良好 (大規模&語義を人手で付与したものが良好) ⇒人手で付与するのは作成が大変・・・ Multilingual classificationーbased
対訳コーパスを使用 バイリンガルWSDモデル WordNetと対訳コーパスの併用 03
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 04
入力言語:英語 使用言語:5つの言語を使用 フランス語 イタリア語 スペイン語
ドイツ語 オランダ語 使用コーパス: Europarlコーパス 英語とヨーロッパ諸国語の対訳コーパス 05
Europarlコーパス(※) のアライメント 入力・使用言語についてアライメント GIZA++を使用 分類器を5種類用意
使用言語に対して1つずつ分類器を用意 Memory-based learning(MBL)を使用 Jefferey-Divergence距離でパラメータ決定 06
それぞれの分類器の学習 学習にはアライメント結果を使用 分類器の言語のアライメント結果を使用 実験 入力された英文中の多義語の意味を判別
それぞれの分類器の結果を比較 07
2種類のアライメントを試す 全自動で単語アライメントを行う 人手で単語アライメントを行う 学習データ生成の前処理 英文には簡単な構文解析を行う
品詞タグ・チャンクを用いる 08
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09
英文(入力文)に対する素性 対象語自身の表層形・品詞・チャンク情報 対象語周辺の表層形・品詞・チャンク情報 モノリンガル素性(bag-of-words) 英文以外の5ヵ国語の素性
文中に対象語が存在する/しないの二値 対象の言語以外の4ヶ国語のbag-of-words を使用 09 Local context feature Translation feature
提案システムの素性は3種類 1:full feature vector 2:Translation feature
3:Local context feature 比較するシステム Baseline:高頻度語義を選択 T3-COLEUR,UvT-WSD: SemEval内で成績が上位だったシステム 10 「手動アライメント」 「自動アライメント」 それぞれに対して実験
テストセット SemEval”CLWSD”のテストセットを使用 テスト文は2種類のコーパスを使用 ▪ JRC-ACQUIS Multilingual Parallel
Corpus ▪ BNC 評価 Precision:SemEvalで使われた精度 Accuracy:正解数をテスト文数で割った値 11
Precisionで評価した場合 12
Precisionで評価した場合 12 自動アライメント 手動アライメント
Precisionで評価した場合 12
Accuracyで評価した場合 13
スペイン語以外では圧倒的に良い結果 自動アライメントでも従来手法に勝利 対訳コーパスの乏しさについて 現在手に入る量は乏しい 今後
大量の対訳コーパスが手に入る? (企業などが作成するのでは?) 14 全自動&知識ボトルネックを解消!
提案手法の効果 従来の手法との比較 アライメント方法の比較 自動アライメント 手動アライメント
言語による結果の比較 言語に依存しないシステムが目標 15
提案手法の効果 従来手法と同等もしくはそれ以上の結果 素性が単純なので改善の余地あり アライメント方法について 自動でも手動と大差ない結果
言語による結果の比較 英語-スペイン語間では従来手法が上 従来手法より言語による差が少ない 16