- 文献紹介 2019 Jul 3 -Is Word Segmentation Necessary for Deep Learning of Chinese Representations?長岡技術科学大学自然言語処理研究室多田太郎
View Slide
About the paper2Authors:Conference:ACL 2019
Abstract・中国語のテキストの単語分割の必要性はあまり調べられていない・中国語単語分割(CWS)が深層学習に基づく中国語NLPに必要であるか・4つのエンドツーエンドのNLPベンチマークタスクで実験・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた3
Introduction4・中国語テキストでは前処理として単語分割を行なうのが一般的・単語ベースのモデルにはいくつかの基本的な欠点があるコーパス内の単語のスパース性が過剰適合につながるOOV単語の偏在はモデルの学習能力を制限する→単語の頻度が低いため、モデルでそれらの意味を完全に学習することは不可能・最先端の単語セグメンテーションの性能でも完全には程遠いその誤差は下流のNLPタスクに影響→中国語の単語の境界が非常に曖昧なため・単語ベースのモデルを文字ベースのモデルと比較し、有用性を検討
Introduction5
・ディープラーニングベースの中国語NLPにおける単語分割の効果を評価言語モデリング、機械翻訳、テキスト分類、文のマッチング/言い換え・単語ベースのモデルと文字ベースのモデルを比較グリッドサーチでハイパーパラメータを調整(学習率、バッチサイズ、ドロップアウト率などの重要な項目)Experimental Results6
Chinese Tree-Bank 6.0(CT B6)で評価 ・次の単語を予測するタスク ・トレーニング80%、検証10%、テスト10% ・Jiebaで単語分割Language Modeling7
・Ch-En, En-Ch トレーニングセットは、LDCコーパスから抽出された1.25Mの文ペア 検証セット:NIST 2002 テストセット:NIST 2003,2004,2005,2006,2008 語彙サイズ:4,500Machine Translation8
・テMachine Translation9
・テMachine Translation10
Sentence Matching/Paraphrase11BQとLCQMCで評価Stanford Natural Language Inference (SNLI) Corpusと似たタスクペアとなっている2つの文が同じ意味(BQ)、意図(LCQMC)かテキストはJiebaで単語分割SOTAモデルのBiMPM(2017)を用い実験BiMPMによって提案された標準設定 ランダムに初期化される200dのword / char埋め込みを使用
Sentence Matching/Paraphrase12
Text Classification135つのデータ・セットで実験ChinaNews:ニュース記事、7カテゴリIfeng:ニュース記事の最初の段落、5カテゴリJD_Full:製品レビュー、5クラスJD_binary:製品レビュー、2クラスDianping:レストランのレビュー、2クラス単語ベースと文字ベースで双方向LSTMモデルをトレーニング
Text Classification14・ト
Domain Adaptation Ability15・学習データと異なる(しかし関連した)データに対しての評価単語のスパース性により文字ベースのモデルは単語ベースのモデルよりもドメイン適応能力が高いと仮定・感情分析データセットに対して仮説を検証Dianping(レストランレビュー)とJD_binary(製品レビュー)で評価トレーニング/テストを入れ替えて2通り行なう
Domain Adaptation Ability16
Analysis17・単語ベースのモデルが文字ベースのモデルよりも優れている結果を得た→理由の理解を目指す・以下項目で確認Data SparsitOut-of-Vocabulary WordsVisualization
Data Sparsity18・語彙サイズが大きくなりすぎないよう頻度しきい値を設定→頻度がしきい値を下回るすべての単語をUNKトークンに
Out-of-Vocabulary Words19・単語ベースのモデルの劣っている理由にOOVが考えられる →OOVの数を減らすことで、単語ベースと文字ベースのギャップを小さくできるのでは・頻度しきい値を低く設定すると、データのスパース性の問題の悪化が予想される →異なる単語頻度のしきい値に対して、データ・セットから単語OOVを含む文を削除
Out-of-Vocabulary Words20
Visualization21BQ意味マッチングタスクで評価(2つの文に同じ意図があるかどうか)2つの文のトークン間のアテンションマッチング値を確認
Conclusion22・中国語深層学習での単語分割の必要性について調査・4つのNLPタスクで、単語ベースと文字ベースのモデルを評価・文字ベースのモデルは一貫して単語ベースのモデルよりも優れていた・単語ベースモデルの劣っている理由は単語分布のまばらさが原因であることを示した
23
Overfitting24