Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What Substitutes Tell Us-Analysis of an “All-Words” Lexical Substitution Corpus

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
September 20, 2017

What Substitutes Tell Us-Analysis of an “All-Words” Lexical Substitution Corpus

文献紹介

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

September 20, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. What Substitutes Tell Us – Analysis of an “All-Words” Lexical

    Substitution Corpus Gerhard Kremer, Katrin Erk, Sebastian Padó, Stefan Thater Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 540–549, Gothenburg, Sweden, April 26-30 2014. 自然言語処理研究室 B4 勝田 哲弘 2017/9/20 1 図、表などは論文中から引用しています。
  2. 概要 • 英語の大規模な「allwords lexical substitution」コーパスの構築 ▫ 同義語辞書 • WordNetとSEMEVAL lexical

    substitution dataと比較を行う
  3. はじめに • 語義の曖昧さを解消する方法 ▫ supervised word sense disambiguation ▫ WSD

    (McCarthy, 2008; Navigli, 2009) • WordNet ▫ coverage and granularityが批判されている • Lexical Substitution ▫ (McCarthy and Navigli, 2009) ▫ 文脈の中で置換候補をリストする
  4. はじめに • Lexical Substitution ▫ 小規模のデータしかない • 大規模なデータセットを構築 ▫ MASC(30,000語以上)

    • Lexical Substitution の性質 • 文脈における語義の性質を調べる
  5. Amazon Mechanical Turk (AMT) • HITs. ▫ 3文表示し、その中の1単語を基本1語で書き換え る ▫

    1単語6人が書き換えるように依頼 • データセット ▫ 2,474文(7,117の名詞、4,617の動詞、2,470の形 容詞、1,425の副詞)の15,629個
  6. Inter-Annotator Agreement

  7. Characterising Lexical Substitutions • コーパスから以下の内容を調査 ▫ 対象単語と置換候補にどのような関係があるか ▫ Parasetは語意に類似するのか •

    WordNetと比較
  8. Characterising Lexical Substitutions • 同義語(syn)、直接/推移的(direct/trans)上 位語(hyper)および下位語(hypo)

  9. Characterising Lexical Substitutions

  10. Ranking Paraphrases • McCarthyとNavigliのSEMEVAL 2007データ セットと3つの計算モデルで比較 ▫ Erk and Padó

    (2008, EP08) ▫ Thater et al. (2010, TFP10) ▫ Thater et al. (2011, TFP11) • (Kishida, 2005, GAP)を使用し、頻度を重視し てランク付けされたリストを作成
  11. Ranking Paraphrases • 対象単語をベクトル化し、コサイン類似度を基 にランク付け

  12. Ranking Paraphrases • ContextにおいてCOINCOが低くなる要因 ▫ 依頼設定 ▫ 意味分布 ▫ 頻度-品詞の分布

    • 頻度-分布をSEMEVALに合わせた ▫ COINCO subset
  13. まとめ • 利点 ▫ 連続したドキュメントをカバー ▫ 規模が大きいためよりlexical substitutionの詳細 な分析が可能 •

    1つの対象単語がWordNetのsynsetに類似する • WordNetでは区別できない意味要素を文脈は含 んでいる。