Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 4月25日

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for gumigumi7 gumigumi7
April 25, 2017
120

文献紹介 4月25日

Avatar for gumigumi7

gumigumi7

April 25, 2017
Tweet

Transcript

  1. 文献 ▪ 論文 ▪ Hieu Pham, Minh-Thang Luong, Christopher D.

    Manning Learning Distributed Representations for Multilingual Text Sequences Proceedings of NAACL-HLT 2015, pages 88–94 ▪ キーワード ▪ 分散表現、バイリンガル、Word2Vec 2
  2. 概要 ▪ 複数言語間での文の分散表現を同じモデルで得る ▪ Paragraph Vector (Le and Mikolov (2014))

    のモデ ルの拡張 ▪ CLDCタスクにおいてstateof-the-artの性能を得る 3
  3. 導入 ▪ Word2Vec ▪ I have a pen と I

    have an apple. という入力 ▪ P(pen | I have a) は高く, P(an | I have a) は低く 5
  4. 導入 ▪ CBOW ▪ 3層のニューラルネット ▪ 入力 各単語の one-hot vector

    ▪ 隠れ層の入力は入力層で計算した単語ベクトルの平均 or 入力層で計算した単語ベクトルをつなげたもの 6
  5. 実験 10 ▪ 文書分類 ▪ 事前にEuroparl v7 multilingual corporaでモデルを学習 ▪

    1.8M ペアの文 ▪ English-German Cross-Lingual Document Classification (CLDC) ▪ ロイターの文書が英語ドイツ語でそれぞれ含まれているもの ▪ 4カテゴリにそれぞれ 1K train, 5K test で構成 ▪ パラレルコーパスではない ▪ en → de だったら、deの分散表現とラベルでTraining ▪ enの分散表現でTestして精度を評価
  6. 参考文献 ▪ Hieu Pham, Minh-Thang Luong, Christopher D. Manning Learning

    Distributed Representations for Multilingual Text Sequences Proceedings of NAACL-HLT 2015, pages 88–94 ▪ Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean Efficient Estimation of Word Representations in Vector Space ICLR 2013 ▪ Tomas Mikolov Distributed Representations of Sentences and Documents Proceedings of the 31 st International Conference on Machine Learning, Beijing, China, 2014. JMLR: W&CP volume 32. 12