Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 11月20日

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for gumigumi7 gumigumi7
November 20, 2017
290

文献紹介 11月20日

Avatar for gumigumi7

gumigumi7

November 20, 2017
Tweet

Transcript

  1. จݙ ▪ 論文 ▪ Piotr Bojanowski∗ and Edouard Grave∗ and

    Armand Joulin and Tomas Mikolov ▪ Enriching Word Vectors with Subword Information ▪ Proceedings of TACL 2017, Transactions of the Association for Computational Linguistics ▪ pp.135–146 ▪ キーワード ▪ WordEmbedding, fasttext 2
  2. ಋೖ ▪ 単語埋め込みの研究は様々 ▪ 単語間でパラメータの共有 は皆無 ▪ 単語の構造も同様 ▪ 形態的に豊かな言語においてはこれらの情報は非常に有用

    ▪ Example) Turkish, Finnish… 4 あなたはヨーロッパ人化させることができないかもしれない人々のうちの一人のようですね
  3. ཧ࿦ ▪ Skipgram ▪ 入力単語から周辺単語を予測するモデル 6 apples I eat to

    fill 目的関数 I eat apples to fill my stomach. Negative Sampling
  4. ཧ࿦ ▪ Subword ▪ 入力単語をcharacter n-gramの足し合わせに ▪ applesであれば 最初と最後に シンボルを付け

    [ <ap , app , ppl , ple , les , es> ] のベクトルを足し合わせる (3-gram) 7 I eat to fill I eat apples to fill my stomach. <ap app ppl ・・・ !
  5. ࣮ݧ 8 ▪ 実装 ▪ Dimension : 300 ▪ Negative

    Sampling : 5 ▪ Character n-gram : 3-gram から 6-gramまで使用 ▪ 実験 ▪ Human similarity judgement ▪ Word analogy tasks ▪ Comparison with morphological representations ▪ Effect of the size of the training data ▪ Effect of the size of n-grams
  6. ݁Ռ 9 ▪ 単語間の類似度 (順位相関係数で評価) OOVを考慮 OOVを考慮しない Arabic, German and

    Russian で精度が顕著に向上 • ドイツ語, ロシア語には活用有り • ドイツ語では 「 Tischtennis 」 と「Tennis」といった単語がある ( 前者は 卓球 , 後者は 庭球 ) 英語のRW (Rare Words dataset) においてもSOTA → Character n-gramは未知語や 低頻度語にも有効
  7. ݁Ռ 10 ▪ Analogy (man → king , woman →

    ??? のような問題) Character n-gramを用いることで Syntacticの精度が非常に向上 n-gramの設定をより適切に選ぶことで より高い精度を期待できる
  8. ݁Ռ 11 ▪ Effect of the size of the training

    data 少量の学習データでも高い精度を実現 非常に少ないデータのみでもCBOWでデータをすべて使った場合より高い精度を記録
  9. ݁Ռ 12 ▪ Effect of the size of n-grams n-gram

    の n を大きくしたほうが精度の向上に寄与 長い単語が多いドイツ語の方でより顕著に精度向上