Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Importance of Subword Embeddings in Sentence Pair Modeling

The Importance of Subword Embeddings in Sentence Pair Modeling

文献紹介 勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

July 24, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: The Importance of Subword Embeddings in Sentence Pair Modeling

    Lan, Wuwei and Xu, Wei, Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT) 2018/07/24 自然言語処理 修士1年 勝田 哲弘
  2. Abstract • Sentence pair modeling(換言、類似度、推論等) ◦ NLPタスクの中でも重要になっている • 様々な方法で文の意味を構築している ◦

    翻訳や言語モデルでのsubwordの有用性はよく知られている ◦ semantics, similarities等の影響は調査されていない • 提案するsubword modelsで事前訓練なしでstate-of-the-art を達成 2
  3. Introduction • 事前訓練された単語埋め込みを使用することによって、これら のタスクで最良の性能を達成した ◦ semantic similarity (Agirre et al.,

    2015) ◦ paraphrase identification (Dolan et al., 2004; Xu et al., 2015) ◦ natural language inference (Bowman et al., 2015), etc. • out-of-vocabularyの割合がしばしば20%を超えるソーシャル メディアドメインではカバレッジが悪い(Baldwin et al., 2013). 3
  4. Introduction • 文対ベクトル表現のためのsubword単位の有効性を調べた。 ◦ sister and sista, teach and teaches

    ◦ ware and war :誤る可能性がある • 以下の調査を行った。 ◦ subword unit ◦ composition function ◦ datasets of different characteristics 4
  5. Sentence Pair Modeling with Subwords 現在のニューラルネット(Yin et al., 2016; Parikh

    et al., 2016; He and Lin, 2016; Liu et al., 2016; Tomar et al., 2017; Wang et al., 2017; Shen et al., 2017, etc) • contextualized word vectors generated via Bi-LSTM, CNN, or attention • soft or hard word alignment and interactions across sentences • and the output classification layer. 2つの文の間の意味関係は主にチャンクの対応関係に依存する(Agirre et al., 2016) 5
  6. Pairwise Word Interaction (PWI) Model(He and Lin, 2016) エンコード層の出力で余弦類似度、ユークリッド距離、および ドット積を用いて単語対の相互作用を直接計算する

    ハードアテンションを適用 19層の深さのCNNにsoftmax layerを通して確率を予測する 6
  7. Embedding Subwords in PWI Model 7 subword (character unigram, bigram,

    and trigram) 各subwordにd次元のベクトルを埋め込み、以下の合成関数を使用 • Char C2W (Ling et al., 2015) • Char CNN (Kim et al., 2016)
  8. Auxiliary Language Modeling (LM)(Rei, 2017) • Bi-LSTMとsoftmaxで前後の単語を予測するモデル • 言語モデルによって目的関数を拡張 ◦

    重み係数γで言語モデルとバランスを取る 8
  9. Experiments Datasets: • Twitter URL (Lan et al.,2017) • PIT-2015

    (Xu et al., 2014,2015) • MSRP (Dolan and Brockett, 2005) 9
  10. Settings • フレームワーク ◦ PyTorch ◦ setups in (He and

    Lin, 2016) and (Lan et al., 2017) • Embedding ◦ 300-dimensional GloVe ◦ 27 billion words from Twitter (vocabulary size of 1.2 million words) ◦ without pretraining : random samples [0.05, 0.05] • 学習データ ◦ MSRP 840 billion words (vocabulary size of 2.2 million words) 10
  11. Results 11

  12. Results • ランダムでも全体的に高い精度を出している。 ◦ n-gramの重複が意味の類似性を積極的に示すため • pretraining and fine-tuningが最終的に精度を上げる •

    Subword Modelで非常に競争力のある結果を達成することが できた • subwordはOOVにとって重要であり、言語モデルはより意味 的で構文的な互換性を保証する 12
  13. Results 13

  14. Conclusion • サブワードモデルの有効性に注目した研究を提示 • 事前に訓練された単語埋め込みなしで、2つのTwitterデータ セットでの言い換えの識別のための新しい最先端の結果を得 られた。 • subword、LMの有用性を示した 14