Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて

Avatar for Shohei Okada Shohei Okada
February 02, 2015

 文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて

Avatar for Shohei Okada

Shohei Okada

February 02, 2015
Tweet

More Decks by Shohei Okada

Other Decks in Research

Transcript

  1. WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14

    Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 3 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
  2. All-Words The English All-Words Task Benjamin Snyder and Martha Palmer

    In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 41-43. 2004. 2015/02/02 文献紹介 4
  3. Test Corpus • Wall Street Journal と Brown Corpus から得られた約

    5,000語の内容語を対象 • 作業者2人によるアノテーション後,別の作業者による 確認・修正 – WordNet中に適切な項目がある場合は複合語も可 – 複数語義に割当てることも可(できるだけ避ける) – 「WordNet中に無い」も可 • 最終的に2,211語 2015/02/02 文献紹介 6
  4. Lexical Sample The Senseval-3 English lexical sample task Rada Mihalcea,

    Timothy Chklovski and Adam Kilgarriff In Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 25-28. 2004. 2015/02/02 文献紹介 7
  5. コーパスの構築 • British National Corpus, Penn Treebank corpus, Los Angeles

    Times collection から抽出された文を利用 • 語義目録は WordNet 1.7.1 のものを利用 – ただし動詞は Wordsmyth のものを利用 • SENSEVAL2において動詞に対する性能が低かった ため • 語義の粒度が細かすぎたためと思われる • 対象語は57語(名詞20語,動詞32語,形容詞5語) 2015/02/02 文献紹介 8
  6. コーパスの構築 • Web上のボランティアを利用 – 対象語を含む文をコーパスから抽出 – 作業者に提示し,最も適切な語義を選ばせる • チェックボックによる選択(複数可) •

    “unclear”と”none of the above” を選択可 • 他者の回答は表示されない – 2人の回答が一致したらタグ付けされる(最大4人) 2015/02/02 文献紹介 9
  7. Multilingual WSD SemEval-2013 Task 12: Multilingual Word Sense Disambiguation Roberto

    Navigli, David Jurgens and Daniele Vannella In Proc. of SemEval 2013, pp. 222-231. 2013. 2015/02/02 文献紹介 10
  8. Task Setup • 対象となる名詞を最も適切な語義に割り当てる – 語義はBabelNet • 2010, 2011, 2012

    の workshop on SMT の データセットより13記事 – English, French, German, Spanish – さらに人手で English → Italian の翻訳 2015/02/02 文献紹介 11
  9. 語義目録 • BabelNet 1.1.1 – 単語,複合語,固有名詞を含む – Wikipedia や WordNet

    3.0 等から作られている – synset は同じ概念に対する複数言語の表現集合 {Globus aerostàticCA , BalloonEN , AérostationFR , BallonDE , Pallone aerostaticoIT , ..., Globo aerostáticoES } 2015/02/02 文献紹介 12
  10. Cross-lingual WSD SemEval-2013 Task 10: Cross-lingual Word Sense Disambiguation Els

    Lefever and Véronique Hoste In Proc. of SemEval 2013, pp. 158-166. 2013. 2015/02/02 文献紹介 16
  11. Cross-lingual WSD その文脈において正しい訳語を選択する “Je cherche des idées pour manger de

    l’avocat” (French→English) – 正しい訳語 “avocat” → “avocado” – 誤った訳語 “avocat” → “lawyer” 2015/02/02 文献紹介 17
  12. Task setup • 英語の名詞に対する教師なしWSDタスク – 英語の名詞 20 個 • 語義目録は

    Europarl parallel corpus に基づく • 対象言語: French, Italian, Spanish, Dutch, German 2015/02/02 文献紹介 18
  13. Motivations • 語義の粒度の問題 – 必ずしも細かい粒度が必要ではない “head” (English) は常に “hoofd” (Dutch)に翻訳できる

    (頭と組織の長の両方の意味を持つ) – 領域特化のコーパスを利用することで, その領域向きの語義目録が作成可 2015/02/02 文献紹介 20
  14. subtasks • best evaluation – システムはいくつでも答えを提示可能 – 提示した数によってスコアが割られる • Out-of-five

    – システムは5つまで答えを提示可能 – 誤った答えに対するペナルティは無し 2015/02/02 文献紹介 24
  15. WSDタスクの実施状況 Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14

    Lexical Sample ✓ ✓ ✓ ✓ ✓ All-Words ✓ ✓ ✓ ✓ ✓ Multilingual ✓ Cross-lingual ✓ ✓ 2015/02/02 文献紹介 25 ※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)