Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Simple task-specific bilingual word embeddings

katsutan
December 10, 2019

Simple task-specific bilingual word embeddings

文献紹介

長岡技術科学大学
勝田 哲弘

katsutan

December 10, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介 Simple task-specific bilingual word embeddings Human Language Technologies: The

    2015 Annual Conference of the North American Chapter of the ACL, pages 1386–1390, Denver, Colorado, May 31 – June 5, 2015. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2. Introduction • 単語埋め込み (Word Embedding) • 単一言語の単語表現を学習 • 構文的に類似する単語を埋め込み空間の近くに配置 •

    固有表現抽出や依存関係の解析など多くのタスクに適応されている • 本研究では、辞書をweak(distant) supervisionとして利用 3
  3. Introduction - contributions • バイリンガル単語埋め込みを学習するための新しいアプローチの提案 • 提案モデル • Bilingual Adaptive

    Reshuffling with Individual Stochastic Alternatives (BARISTA) • 入力: two (non-parallel) corpora and a small dictionary • タスク依存の辞書 • EN car, FR maison(‘house’): 品詞としては等価 • EN house, FR maison: 翻訳としては等価 5
  4. Approach • WordNetまたは同様のリソースから単語の等価性を抽出、学習に組み込む • word alignment bases (e.g., house ∼

    maison) • knowledge bases (e.g., car ∼ maison) • これらを使用して、 mixed context target pairsを生成 6
  5. Approach 1. Ct, Csを連結してシャッフル Ct : target corpus, Cs :

    source corpus 2. 各単語 の時、確率1/2でランダムに置換 • R : 辞書 3. For example, the English sentence “build the house”: construire the house, build la maison, build the maison, etc. 7
  6. Experiments • Word2vec CBOW • Learning rate 0.1, window 4

    • POS tagging dataset • Google’s universal tagset • SuS tagging dataset • Princeton WordNet and DanNet • Translation: Google translate 8
  7. Cross-language super sense tagging • BARISTA embeddings for English-Danishをテスト •

    English SemCor (1000文), Danish (320文) • baseline:most frequent sense (MFS), structured perceptron model trained only with ortographic and POS features • Metric: weighted average over F1-scores 13