Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 6月28日

gumigumi7
June 28, 2017
120

文献紹介 6月28日

gumigumi7

June 28, 2017
Tweet

Transcript

  1. 文献紹介(2017/06/28) 長岡技術科学大学 M1 桾澤 優希 Don’t count, predict! A systematic

    comparison of context-counting vs. context-predicting semantic vectors
  2. 文献 ▪ 論文 ▪ Marco Baroni and Georgiana Dinu and

    German Kruszewski Center for Mind/Brain Sciences (University of Trento, Italy) ▪ Don’t count, predict! A systematic comparison of context- counting vs. context-predicting semantic vectors ▪ Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pages 238–247, Baltimore, Maryland, USA, June 23-25 2014. ▪ キーワード ▪ PMI, WordEmbedding 2
  3. 導入 ▪ 元来から使用されてきたcountモデル ▪ PMIの計算 (V * V 次元) +

    次元圧縮 等 ▪ 最近になって流行っているpredictモデル ▪ Word2Vec (Mikolov et al. 2013) 等 ▪ 様々なタスクにおける直接的な比較はなかった ▪ この論文で決着をつけることに 4
  4. 理論 ▪ Countモデル ▪ PMI または LMI をもちいてベクトル化 ▪ LMI

    は PMI に P(x, y) をさらにかけ合わせたもの ▪ 次元圧縮には以下の2つを使用 ▪ Singular Value Decomposition ▪ Non-negative Matrix Factorization 5
  5. 理論 ▪ その他 ▪ 比較の際には各タスクにおいてstate of the artなモデルと Distributional Memory

    (dm) (Baroni and Lenci et al. 2010), Collobert and Weston (cw) vectors も合わせて比較 ▪ それぞれのモデルを以下のコーパスで学習 ▪ ukWaC ▪ English Wikipedia ▪ British National Corpus. ▪ 計28億単語 7
  6. 実験 8 ▪ 以下のタスクで評価 ▪ Semantic relatedness ▪ Synonym detection

    ▪ Concept categorization ▪ Selectional preferences ▪ Analogy
  7. 実験 9 ▪ Semantic relatedness ▪ 人間による単語と単語の類似度とモデルの出力するベクトル間の コサイン類似度を用いて評価 ▪ 評価には順位相関係数を用いる

    ▪ Synonym detection ▪ 4つの候補の中から正しい同義語を選ぶ問題 ▪ levied one must choose between imposed (correct), believed, requested and correlated
  8. 実験 10 ▪ Concept categorization ▪ カテゴリに属する語を用意しクラスタリングの結果と比較する ▪ helicopters and

    motorcycles should go to the vehicle class, dogs and elephants into the mammal class ▪ Selectional preferences ▪ 主語, 目的語として正しい名詞ペアを用意 ▪ Eat という動詞の場合Personは主語として使われることが多い ▪ よく主語として使われる語と目的語として使われる名詞20を用意し、 それらの平均ベクトルと、Personのような単語のコサイン類似度を 測定、順位相関係数で比較
  9. 実験 11 ▪ Analogy ▪ brother − sister + grandson

    = ? ▪ ベクトルを足し合わせた結果と一番近い単語が正解データと あっているかどうかで評価