Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 4月25日

gumigumi7
April 25, 2017
120

文献紹介 4月25日

gumigumi7

April 25, 2017
Tweet

Transcript

  1. 文献 ▪ 論文 ▪ Hieu Pham, Minh-Thang Luong, Christopher D.

    Manning Learning Distributed Representations for Multilingual Text Sequences Proceedings of NAACL-HLT 2015, pages 88–94 ▪ キーワード ▪ 分散表現、バイリンガル、Word2Vec 2
  2. 概要 ▪ 複数言語間での文の分散表現を同じモデルで得る ▪ Paragraph Vector (Le and Mikolov (2014))

    のモデ ルの拡張 ▪ CLDCタスクにおいてstateof-the-artの性能を得る 3
  3. 導入 ▪ Word2Vec ▪ I have a pen と I

    have an apple. という入力 ▪ P(pen | I have a) は高く, P(an | I have a) は低く 5
  4. 導入 ▪ CBOW ▪ 3層のニューラルネット ▪ 入力 各単語の one-hot vector

    ▪ 隠れ層の入力は入力層で計算した単語ベクトルの平均 or 入力層で計算した単語ベクトルをつなげたもの 6
  5. 実験 10 ▪ 文書分類 ▪ 事前にEuroparl v7 multilingual corporaでモデルを学習 ▪

    1.8M ペアの文 ▪ English-German Cross-Lingual Document Classification (CLDC) ▪ ロイターの文書が英語ドイツ語でそれぞれ含まれているもの ▪ 4カテゴリにそれぞれ 1K train, 5K test で構成 ▪ パラレルコーパスではない ▪ en → de だったら、deの分散表現とラベルでTraining ▪ enの分散表現でTestして精度を評価
  6. 参考文献 ▪ Hieu Pham, Minh-Thang Luong, Christopher D. Manning Learning

    Distributed Representations for Multilingual Text Sequences Proceedings of NAACL-HLT 2015, pages 88–94 ▪ Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean Efficient Estimation of Word Representations in Vector Space ICLR 2013 ▪ Tomas Mikolov Distributed Representations of Sentences and Documents Proceedings of the 31 st International Conference on Machine Learning, Beijing, China, 2014. JMLR: W&CP volume 32. 12