Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて

Shohei Okada
February 02, 2015

 文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて

Shohei Okada

February 02, 2015
Tweet

More Decks by Shohei Okada

Other Decks in Research

Transcript

  1. WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14

    Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 3 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
  2. All-Words The English All-Words Task Benjamin Snyder and Martha Palmer

    In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 41-43. 2004. 2015/02/02 文献紹介 4
  3. Test Corpus • Wall Street Journal と Brown Corpus から得られた約

    5,000語の内容語を対象 • 作業者2人によるアノテーション後,別の作業者による 確認・修正 – WordNet中に適切な項目がある場合は複合語も可 – 複数語義に割当てることも可(できるだけ避ける) – 「WordNet中に無い」も可 • 最終的に2,211語 2015/02/02 文献紹介 6
  4. Lexical Sample The Senseval-3 English lexical sample task Rada Mihalcea,

    Timothy Chklovski and Adam Kilgarriff In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 25-28. 2004. 2015/02/02 文献紹介 7
  5. コーパスの構築 • British National Corpus, Penn Treebank corpus, Los Angeles

    Times collection から抽出された文を利用 • 語義目録は WordNet 1.7.1 のものを利用 – ただし動詞は Wordsmyth のものを利用 • SENSEVAL2において動詞に対する性能が低かった ため • 語義の粒度が細かすぎたためと思われる • 対象語は57語(名詞20語,動詞32語,形容詞5語) 2015/02/02 文献紹介 8
  6. コーパスの構築 • Web上のボランティアを利用 – 対象語を含む文をコーパスから抽出 – 作業者に提示し,最も適切な語義を選ばせる • チェックボックによる選択(複数可) •

    “unclear”と”none of the above” を選択可 • 他者の回答は表示されない – 2人の回答が一致したらタグ付けされる(最大4人) 2015/02/02 文献紹介 9
  7. Multilingual WSD SemEval-2013 Task 12: Multilingual Word Sense Disambiguation Roberto

    Navigli, David Jurgens and Daniele Vannella In Proc. of SemEval 2013, pp. 222-231. 2013. 2015/02/02 文献紹介 10
  8. Task Setup • 対象となる名詞を最も適切な語義に割り当てる – 語義はBabelNet • 2010, 2011, 2012

    の workshop on SMT の データセットより13記事 – English, French, German, Spanish – さらに人手で English → Italian の翻訳 2015/02/02 文献紹介 11
  9. 語義目録 • BabelNet 1.1.1 – 単語,複合語,固有名詞を含む – Wikipedia や WordNet

    3.0 等から作られている – synset は同じ概念に対する複数言語の表現集合 {Globus aerostàticCA , BalloonEN , AérostationFR , BallonDE , Pallone aerostaticoIT , ..., Globo aerostáticoES } 2015/02/02 文献紹介 12
  10. Cross-lingual WSD SemEval-2013 Task 10: Cross-lingual Word Sense Disambiguation Els

    Lefever and Véronique Hoste In Proc. of SemEval 2013, pp. 158-166. 2013. 2015/02/02 文献紹介 16
  11. Cross-lingual WSD その文脈において正しい訳語を選択する “Je cherche des idées pour manger de

    l’avocat” (French→English) – 正しい訳語 “avocat” → “avocado” – 誤った訳語 “avocat” → “lawyer” 2015/02/02 文献紹介 17
  12. Task setup • 英語の名詞に対する教師なしWSDタスク – 英語の名詞 20 個 • 語義目録は

    Europarl parallel corpus に基づく • 対象言語: French, Italian, Spanish, Dutch, German 2015/02/02 文献紹介 18
  13. Motivations • 語義の粒度の問題 – 必ずしも細かい粒度が必要ではない “head” (English) は常に “hoofd” (Dutch)に翻訳できる

    (頭と組織の長の両方の意味を持つ) – 領域特化のコーパスを利用することで, その領域向きの語義目録が作成可 2015/02/02 文献紹介 20
  14. subtasks • best evaluation – システムはいくつでも答えを提示可能 – 提示した数によってスコアが割られる • Out-of-five

    – システムは5つまで答えを提示可能 – 誤った答えに対するペナルティは無し 2015/02/02 文献紹介 24
  15. WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14

    Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 25 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)