文献紹介 https://www.aclweb.org/anthology/P19-1453.pdf
長岡技術科学大学 勝田 哲弘
Simple and Effective Paraphrastic Similarityfrom Parallel Translations長岡技術科学大学自然言語処理研究室勝田 哲弘文献紹介Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,pages 4602–4608 Florence, Italy, July 28 - August 2, 2019
View Slide
Abstract➢言い換え文の埋め込みを学習するためのモデル➢時間のかかる言い換えコーパスの作成ステップを削除➢bitextから直接学習➢結果➢このモデルは最先端の複雑なモデルよりも優れている➢高速であり、クロスリンガルタスクに適用できる2
Introduction➢これまでの文の類似性➢言い換えフレーズのデータセットで学習➢大きなバイリンガルコーパスから言い換えデータセットを誘導する➢本論文➢文の埋め込みをbitextで直接学習➢高速に文章をエンコードするシンプルなモデル3
Learning SentenceEmbeddings➢Training⚫ トレーニングデータ⚫ それぞれソース言語とターゲット言語の一連の並列文ペア (, )⚫ ネガティブサンプリング⚫ の翻訳ではないターゲット文′をランダムに選択⚫ (, )を(, ′)よりもマージンδ近づける4目的関数(; ): 各言語のパラメーターを持つセンテンスエンコーダー
Learning Sentence Embeddings➢Negative Sampling➢ mega-batching, Wieting and Gimpel(2018)➢Mが大きいほど困難な例を提供➢Mega-batching➢M個のミニバッチを集約して1つのメガバッチを作成し、メガバッチから負の例を選択➢メガバッチの各ペアに負の例があれば、メガバッチはM個のミニバッチに分割5
Learning Sentence EmbeddingsEncoders➢SP➢sentencepiece のサブワードを平均➢TRIGRAM➢文字トライグラムの平均➢WORD➢単語の平均➢LSTM-SP➢Sentencepieceを用いた双方向LSTM6
Experiments➢並列データと逆翻訳された並列データの学習を比較➢2012-2016年のSemEval Semantic Textual Similarity(STS)➢2つのsemantic cross-lingual tasksでの最良のモデルSPを比較➢2017 SemEval STS➢2018 Building and Using Parallel Corpora (BUCC)7
Back-Translated Text vs. Parallel Text➢En-EnはEn-CS(1M) より、SPを除いて高い相関➢同数の英文を用意すれば同程度の性能➢En-CS設定でSPは最高のパフォーマンスを発揮
Monolingual and Cross-Lingual Similarity従来の深層学習モデルを上回る精度
Monolingual and Cross-Lingual Similarityランダム設定ではTRIGRAMが強い※語彙の重複がないと精度が低い
Mining Bitext➢異なる各言語の大規模なコーパスから正しい対訳ペアを見つける11
Encoding Speed12
Does Language Choice Matter?13
Conclusion➢bitextを直接使用することにより精度の高い文の埋め込みを作成➢ピボットや逆翻訳などを使用する必要がない➢言語横断的表現が生成可能➢比較可能な従来の方法と比べて圧倒的に高速14