$30 off During Our Annual Pro Sale. View Details »

文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

T.Tada

July 03, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Jul 3 -
    Is Word Segmentation Necessary for Deep Learning of Chinese Representations?
    長岡技術科学大学
    自然言語処理研究室
    多田太郎

    View Slide

  2. About the paper
    2
    Authors:
    Conference:
    ACL 2019

    View Slide

  3. Abstract
    ・中国語のテキストの単語分割の必要性はあまり調べられていない
    ・中国語単語分割(CWS)が深層学習に基づく中国語NLPに必要であるか
    ・4つのエンドツーエンドのNLPベンチマークタスクで実験
    ・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた
    3

    View Slide

  4. Introduction
    4
    ・中国語テキストでは前処理として単語分割を行なうのが一般的
    ・単語ベースのモデルにはいくつかの基本的な欠点がある
    コーパス内の単語のスパース性が過剰適合につながる
    OOV単語の偏在はモデルの学習能力を制限する
    →単語の頻度が低いため、モデルでそれらの意味を完全に学習することは不可能
    ・最先端の単語セグメンテーションの性能でも完全には程遠い
    その誤差は下流のNLPタスクに影響
    →中国語の単語の境界が非常に曖昧なため
    ・単語ベースのモデルを文字ベースのモデルと比較し、有用性を検討

    View Slide

  5. Introduction
    5

    View Slide

  6. ・ディープラーニングベースの中国語NLPにおける単語分割の効果を評価
    言語モデリング、機械翻訳、テキスト分類、文のマッチング/言い換え
    ・単語ベースのモデルと文字ベースのモデルを比較
    グリッドサーチでハイパーパラメータを調整
    (学習率、バッチサイズ、ドロップアウト率などの重要な項目)
    Experimental Results
    6

    View Slide

  7. Chinese Tree-Bank 6.0(CT B6)で評価
     ・次の単語を予測するタスク
     ・トレーニング80%、検証10%、テスト10%
     ・Jiebaで単語分割
    Language Modeling
    7

    View Slide

  8. ・Ch-En, En-Ch
     トレーニングセットは、LDCコーパスから抽出された1.25Mの文ペア
     検証セット:NIST 2002
     テストセット:NIST 2003,2004,2005,2006,2008
     語彙サイズ:4,500
    Machine Translation
    8

    View Slide

  9. ・テ
    Machine Translation
    9

    View Slide

  10. ・テ
    Machine Translation
    10

    View Slide

  11. Sentence Matching/Paraphrase
    11
    BQとLCQMCで評価
    Stanford Natural Language Inference (SNLI) Corpusと似たタスク
    ペアとなっている2つの文が同じ意味(BQ)、意図(LCQMC)か
    テキストはJiebaで単語分割
    SOTAモデルのBiMPM(2017)を用い実験
    BiMPMによって提案された標準設定
     ランダムに初期化される200dのword / char埋め込みを使用

    View Slide

  12. Sentence Matching/Paraphrase
    12

    View Slide

  13. Text Classification
    13
    5つのデータ・セットで実験
    ChinaNews:ニュース記事、7カテゴリ
    Ifeng:ニュース記事の最初の段落、5カテゴリ
    JD_Full:製品レビュー、5クラス
    JD_binary:製品レビュー、2クラス
    Dianping:レストランのレビュー、2クラス
    単語ベースと文字ベースで双方向LSTMモデルをトレーニング

    View Slide

  14. Text Classification
    14
    ・ト

    View Slide

  15. Domain Adaptation Ability
    15
    ・学習データと異なる(しかし関連した)データに対しての評価
    単語のスパース性により文字ベースのモデルは単語ベースのモデルよりも
    ドメイン適応能力が高いと仮定
    ・感情分析データセットに対して仮説を検証
    Dianping(レストランレビュー)とJD_binary(製品レビュー)で評価
    トレーニング/テストを入れ替えて2通り行なう

    View Slide

  16. Domain Adaptation Ability
    16

    View Slide

  17. Analysis
    17
    ・単語ベースのモデルが文字ベースのモデルよりも優れている結果を得た
    →理由の理解を目指す
    ・以下項目で確認
    Data Sparsit
    Out-of-Vocabulary Words
    Visualization

    View Slide

  18. Data Sparsity
    18
    ・語彙サイズが大きくなりすぎないよう頻度しきい値を設定
    →頻度がしきい値を下回るすべての単語をUNKトークンに

    View Slide

  19. Out-of-Vocabulary Words
    19
    ・単語ベースのモデルの劣っている理由にOOVが考えられる
     →OOVの数を減らすことで、単語ベースと文字ベースのギャップを小さくできるのでは
    ・頻度しきい値を低く設定すると、データのスパース性の問題の悪化が予想される
     →異なる単語頻度のしきい値に対して、データ・セットから単語OOVを含む文を削除

    View Slide

  20. Out-of-Vocabulary Words
    20

    View Slide

  21. Visualization
    21
    BQ意味マッチングタスクで評価(2つの文に同じ意図があるかどうか)
    2つの文のトークン間のアテンションマッチング値を確認

    View Slide

  22. Conclusion
    22
    ・中国語深層学習での単語分割の必要性について調査
    ・4つのNLPタスクで、単語ベースと文字ベースのモデルを評価
    ・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた
    ・単語ベースモデルの劣っている理由は単語分布のまばらさが原因であることを示した

    View Slide

  23. 23

    View Slide

  24. Overfitting
    24

    View Slide