$30 off During Our Annual Pro Sale. View Details »

文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

T.Tada

July 03, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Jul 3 - Is Word Segmentation Necessary

    for Deep Learning of Chinese Representations? 長岡技術科学大学 自然言語処理研究室 多田太郎
  2. About the paper 2 Authors: Conference: ACL 2019

  3. Abstract ・中国語のテキストの単語分割の必要性はあまり調べられていない ・中国語単語分割(CWS)が深層学習に基づく中国語NLPに必要であるか ・4つのエンドツーエンドのNLPベンチマークタスクで実験 ・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた 3

  4. Introduction 4 ・中国語テキストでは前処理として単語分割を行なうのが一般的 ・単語ベースのモデルにはいくつかの基本的な欠点がある コーパス内の単語のスパース性が過剰適合につながる OOV単語の偏在はモデルの学習能力を制限する →単語の頻度が低いため、モデルでそれらの意味を完全に学習することは不可能 ・最先端の単語セグメンテーションの性能でも完全には程遠い その誤差は下流のNLPタスクに影響 →中国語の単語の境界が非常に曖昧なため

    ・単語ベースのモデルを文字ベースのモデルと比較し、有用性を検討
  5. Introduction 5

  6. ・ディープラーニングベースの中国語NLPにおける単語分割の効果を評価 言語モデリング、機械翻訳、テキスト分類、文のマッチング/言い換え ・単語ベースのモデルと文字ベースのモデルを比較 グリッドサーチでハイパーパラメータを調整 (学習率、バッチサイズ、ドロップアウト率などの重要な項目) Experimental Results 6

  7. Chinese Tree-Bank 6.0(CT B6)で評価  ・次の単語を予測するタスク  ・トレーニング80%、検証10%、テスト10%  ・Jiebaで単語分割 Language Modeling 7

  8. ・Ch-En, En-Ch  トレーニングセットは、LDCコーパスから抽出された1.25Mの文ペア  検証セット:NIST 2002  テストセット:NIST 2003,2004,2005,2006,2008  語彙サイズ:4,500 Machine Translation

    8
  9. ・テ Machine Translation 9

  10. ・テ Machine Translation 10

  11. Sentence Matching/Paraphrase 11 BQとLCQMCで評価 Stanford Natural Language Inference (SNLI) Corpusと似たタスク

    ペアとなっている2つの文が同じ意味(BQ)、意図(LCQMC)か テキストはJiebaで単語分割 SOTAモデルのBiMPM(2017)を用い実験 BiMPMによって提案された標準設定  ランダムに初期化される200dのword / char埋め込みを使用
  12. Sentence Matching/Paraphrase 12

  13. Text Classification 13 5つのデータ・セットで実験 ChinaNews:ニュース記事、7カテゴリ Ifeng:ニュース記事の最初の段落、5カテゴリ JD_Full:製品レビュー、5クラス JD_binary:製品レビュー、2クラス Dianping:レストランのレビュー、2クラス 単語ベースと文字ベースで双方向LSTMモデルをトレーニング

  14. Text Classification 14 ・ト

  15. Domain Adaptation Ability 15 ・学習データと異なる(しかし関連した)データに対しての評価 単語のスパース性により文字ベースのモデルは単語ベースのモデルよりも ドメイン適応能力が高いと仮定 ・感情分析データセットに対して仮説を検証 Dianping(レストランレビュー)とJD_binary(製品レビュー)で評価 トレーニング/テストを入れ替えて2通り行なう

  16. Domain Adaptation Ability 16

  17. Analysis 17 ・単語ベースのモデルが文字ベースのモデルよりも優れている結果を得た →理由の理解を目指す ・以下項目で確認 Data Sparsit Out-of-Vocabulary Words Visualization

  18. Data Sparsity 18 ・語彙サイズが大きくなりすぎないよう頻度しきい値を設定 →頻度がしきい値を下回るすべての単語をUNKトークンに

  19. Out-of-Vocabulary Words 19 ・単語ベースのモデルの劣っている理由にOOVが考えられる  →OOVの数を減らすことで、単語ベースと文字ベースのギャップを小さくできるのでは ・頻度しきい値を低く設定すると、データのスパース性の問題の悪化が予想される  →異なる単語頻度のしきい値に対して、データ・セットから単語OOVを含む文を削除

  20. Out-of-Vocabulary Words 20

  21. Visualization 21 BQ意味マッチングタスクで評価(2つの文に同じ意図があるかどうか) 2つの文のトークン間のアテンションマッチング値を確認

  22. Conclusion 22 ・中国語深層学習での単語分割の必要性について調査 ・4つのNLPタスクで、単語ベースと文字ベースのモデルを評価 ・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた ・単語ベースモデルの劣っている理由は単語分布のまばらさが原因であることを示した

  23. 23

  24. Overfitting 24