文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

- 文献紹介 2019 Jul 3 - Is Word Segmentation Necessary
for Deep Learning of Chinese Representations? 長岡技術科学大学自然言語処理研究室多田太郎

About the paper 2 Authors： Conference： ACL 2019

Abstract ・中国語のテキストの単語分割の必要性はあまり調べられていない・中国語単語分割（CWS）が深層学習に基づく中国語NLPに必要であるか・4つのエンドツーエンドのNLPベンチマークタスクで実験・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた 3

Introduction 4 ・中国語テキストでは前処理として単語分割を行なうのが一般的・単語ベースのモデルにはいくつかの基本的な欠点があるコーパス内の単語のスパース性が過剰適合につながる OOV単語の偏在はモデルの学習能力を制限する →単語の頻度が低いため、モデルでそれらの意味を完全に学習することは不可能・最先端の単語セグメンテーションの性能でも完全には程遠いその誤差は下流のNLPタスクに影響 →中国語の単語の境界が非常に曖昧なため
・単語ベースのモデルを文字ベースのモデルと比較し、有用性を検討

Introduction 5

・ディープラーニングベースの中国語NLPにおける単語分割の効果を評価言語モデリング、機械翻訳、テキスト分類、文のマッチング/言い換え・単語ベースのモデルと文字ベースのモデルを比較グリッドサーチでハイパーパラメータを調整（学習率、バッチサイズ、ドロップアウト率などの重要な項目） Experimental Results 6

Chinese Tree-Bank 6.0（CT B6）で評価　・次の単語を予測するタスク　・トレーニング80％、検証10％、テスト10％　・Jiebaで単語分割 Language Modeling 7

・Ch-En, En-Ch 　トレーニングセットは、LDCコーパスから抽出された1.25Mの文ペア　検証セット:NIST 2002 　テストセット:NIST 2003,2004,2005,2006,2008 　語彙サイズ:4,500 Machine Translation
8

・テ Machine Translation 9

・テ Machine Translation 10

Sentence Matching/Paraphrase 11 BQとLCQMCで評価 Stanford Natural Language Inference (SNLI) Corpusと似たタスク
ペアとなっている2つの文が同じ意味(BQ)、意図(LCQMC)かテキストはJiebaで単語分割 SOTAモデルのBiMPM（2017）を用い実験 BiMPMによって提案された標準設定　ランダムに初期化される200dのword / char埋め込みを使用

Sentence Matching/Paraphrase 12

Text Classification 13 5つのデータ・セットで実験 ChinaNews：ニュース記事、7カテゴリ Ifeng：ニュース記事の最初の段落、5カテゴリ JD_Full：製品レビュー、5クラス JD_binary：製品レビュー、2クラス Dianping：レストランのレビュー、2クラス単語ベースと文字ベースで双方向LSTMモデルをトレーニング

Text Classification 14 ・ト

Domain Adaptation Ability 15 ・学習データと異なる（しかし関連した）データに対しての評価単語のスパース性により文字ベースのモデルは単語ベースのモデルよりもドメイン適応能力が高いと仮定・感情分析データセットに対して仮説を検証 Dianping（レストランレビュー）とJD_binary（製品レビュー）で評価トレーニング／テストを入れ替えて2通り行なう

Domain Adaptation Ability 16

Analysis 17 ・単語ベースのモデルが文字ベースのモデルよりも優れている結果を得た →理由の理解を目指す・以下項目で確認 Data Sparsit Out-of-Vocabulary Words Visualization

Data Sparsity 18 ・語彙サイズが大きくなりすぎないよう頻度しきい値を設定 →頻度がしきい値を下回るすべての単語をUNKトークンに

Out-of-Vocabulary Words 19 ・単語ベースのモデルの劣っている理由にOOVが考えられる　→OOVの数を減らすことで、単語ベースと文字ベースのギャップを小さくできるのでは・頻度しきい値を低く設定すると、データのスパース性の問題の悪化が予想される　→異なる単語頻度のしきい値に対して、データ・セットから単語OOVを含む文を削除

Out-of-Vocabulary Words 20

Visualization 21 BQ意味マッチングタスクで評価（2つの文に同じ意図があるかどうか） 2つの文のトークン間のアテンションマッチング値を確認

Conclusion 22 ・中国語深層学習での単語分割の必要性について調査・4つのNLPタスクで、単語ベースと文字ベースのモデルを評価・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた・単語ベースモデルの劣っている理由は単語分布のまばらさが原因であることを示した

Overfitting 24

文献紹介_201907_Is Word Segmentation Necessary for ...

文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Jul 3 - Is Word Segmentation Necessary