Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Simple and Effective Paraphrastic Similarity from Parallel Translations

katsutan
January 27, 2020

Simple and Effective Paraphrastic Similarity from Parallel Translations

文献紹介
https://www.aclweb.org/anthology/P19-1453.pdf

長岡技術科学大学
勝田 哲弘

katsutan

January 27, 2020
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Simple and Effective Paraphrastic Similarity
    from Parallel Translations
    長岡技術科学大学
    自然言語処理研究室
    勝田 哲弘
    文献紹介
    Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,
    pages 4602–4608 Florence, Italy, July 28 - August 2, 2019

    View Slide

  2. Abstract
    ➢言い換え文の埋め込みを学習するためのモデル
    ➢時間のかかる言い換えコーパスの作成ステップを削除
    ➢bitextから直接学習
    ➢結果
    ➢このモデルは最先端の複雑なモデルよりも優れている
    ➢高速であり、クロスリンガルタスクに適用できる
    2

    View Slide

  3. Introduction
    ➢これまでの文の類似性
    ➢言い換えフレーズのデータセットで学習
    ➢大きなバイリンガルコーパスから言い換えデータセット
    を誘導する
    ➢本論文
    ➢文の埋め込みをbitextで直接学習
    ➢高速に文章をエンコードするシンプルなモデル
    3

    View Slide

  4. Learning Sentence
    Embeddings
    ➢Training
    ⚫ トレーニングデータ
    ⚫ それぞれソース言語とターゲット言語の一連の並列文
    ペア (
    ,
    )
    ⚫ ネガティブサンプリング
    ⚫ の翻訳ではないターゲット文′
    をランダムに選択
    ⚫ (
    ,
    )を(
    , ′
    )よりもマージンδ近づける
    4
    目的関数
    (; ): 各言語のパラメーターを持つ
    センテンスエンコーダー

    View Slide

  5. Learning Sentence Embeddings
    ➢Negative Sampling
    ➢ mega-batching, Wieting and Gimpel(2018)
    ➢Mが大きいほど困難な例を提供
    ➢Mega-batching
    ➢M個のミニバッチを集約して1つのメガバッチを作成し、
    メガバッチから負の例を選択
    ➢メガバッチの各ペアに負の例があれば、メガバッチはM
    個のミニバッチに分割
    5

    View Slide

  6. Learning Sentence Embeddings
    Encoders
    ➢SP
    ➢sentencepiece のサブワードを平均
    ➢TRIGRAM
    ➢文字トライグラムの平均
    ➢WORD
    ➢単語の平均
    ➢LSTM-SP
    ➢Sentencepieceを用いた双方向LSTM
    6

    View Slide

  7. Experiments
    ➢並列データと逆翻訳された並列データの学習
    を比較
    ➢2012-2016年のSemEval Semantic Textual Similarity
    (STS)
    ➢2つのsemantic cross-lingual tasksでの最良の
    モデルSPを比較
    ➢2017 SemEval STS
    ➢2018 Building and Using Parallel Corpora (BUCC)
    7

    View Slide

  8. Back-Translated Text vs. Parallel Text
    ➢En-EnはEn-CS(1M) より、
    SPを除いて高い相関
    ➢同数の英文を用意すれば
    同程度の性能
    ➢En-CS設定でSPは最高の
    パフォーマンスを発揮

    View Slide

  9. Monolingual and Cross-Lingual Similarity
    従来の深層学習モデル
    を上回る精度

    View Slide

  10. Monolingual and Cross-Lingual Similarity
    ランダム設定ではTRIGRAMが強い
    ※語彙の重複がないと精度が低い

    View Slide

  11. Mining Bitext
    ➢異なる各言語の大規模なコーパスから正しい対訳
    ペアを見つける
    11

    View Slide

  12. Encoding Speed
    12

    View Slide

  13. Does Language Choice Matter?
    13

    View Slide

  14. Conclusion
    ➢bitextを直接使用することにより精度の高い文の埋
    め込みを作成
    ➢ピボットや逆翻訳などを使用する必要がない
    ➢言語横断的表現が生成可能
    ➢比較可能な従来の方法と比べて圧倒的に高速
    14

    View Slide