Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 8月6日

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for gumigumi7 gumigumi7
August 06, 2017
170

文献紹介 8月6日

Avatar for gumigumi7

gumigumi7

August 06, 2017
Tweet

Transcript

  1. 文献 ▪ 論文 ▪ Raganato, Alessandro and Camacho-Collados, Jose and

    Navigli, Roberto ▪ Word Sense Disambiguation: A Unified Evaluation Framework and Empirical Comparison ▪ Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers ▪ pp. 99-110 ▪ キーワード ▪ 語義曖昧性解消, Semeval 2
  2. 導入 ▪ 語義曖昧性解消のためのデータセットはたくさんある ▪ (Edmonds and Cotton, 2001; Snyder and

    Palmer, 2004; Navigli et al., 2007; Pradhan et al., 2007; Agirre et al., 2010a; Navigli et al., 2013; Moro and Navigli, 2015, interalia) ▪ 知識ベース語義曖昧性解消においてよく使われる WordNetのバージョンの違い ▪ 論文ごとに異なった前処理 5
  3. 理論 7 ▪ 評価システムの概要 ▪ SemEval-13と同じXMLのフォーマットで配布 ▪ 最新のWordNetを用いて自動で語義をannotateした後、 人手で正しいかどうかチェック ▪

    Stanford CoreNLP toolkitでPOSタグ付与、 lemmatizationなどを行う ▪ 作られたシステムは以下でダウンロード可能 http://lcl.uniroma1.it/wsdeval
  4. 各手法の説明 9 ▪ 教師あり語義曖昧性解消 ▪ IMS ▪ 周辺の出現単語、周辺単語のPOSタグ、単語の並び順 を考慮して上げたもの ▪

    My brother has always taken a keen interest in my work . という文章があったとき ▪ 周辺単語は {account, economy, rate, take} が訓練データで周辺に出てきていた場合 <0, 0, 0, 1> ▪ POSタグは “My/PRP$ brother/NN has/VBZ always/RB taken/VBN a/DT keen/JJ interest/NN in/IN my/PRP$ work/NN ./.” なので <VBN, DT, JJ, NN, IN, PRP$, NN> ▪ コロケーションとして使うものは 位置が-2の単語 や 位置が1-2の単語であるため、 素性の一つとなる 位置が1-2 のものは “in my”
  5. 各手法の説明 10 ▪ 教師あり語義曖昧性解消 ▪ IMS+Emb ▪ IMSに対して分散表現を素性として追加 ▪ Context2Vec

    ▪ まずbidirectional LSTMを用いてラベルの付与されていない コーパスを学習 ▪ その後ContextVectorを学習データから学習する ▪ テストデータのContextVectorと学習された語義のContextVectorについ て一番近いものを正解として出力
  6. 各手法の説明 11 ▪ 知識ベースの語義曖昧性解消 ▪ Lesk ▪ 注目している単語の語義の説明や例の中で、一番コンテキスト(周囲の 単語やその語義セット)と重複する単語が多い語義を選ぶ ▪

    同じ文中の単語は共通のトピックを共有する傾向があることを利用 ▪ UKB ▪ 意味ネットワークを利用する グラフベースのWSDシステム