Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EMNLP2015読み会-Long Short-Term Memory Neural Networks for Chinese Word Segmentation

EMNLP2015読み会-Long Short-Term Memory Neural Networks for Chinese Word Segmentation

Masaki Rikitoku

October 24, 2015
Tweet

More Decks by Masaki Rikitoku

Other Decks in Technology

Transcript

  1. Long Short-Term Memory Neural Networks for Chinese Word Segmentation Xinchi

    Chen, Xipeng Qiu, Chenxi Zhu, Pengfei Liu, Xuanjing Huang EMNLP2015読み会 Masaki Rikitoku 2015/10/24
  2. Masaki Rikitoku • NLP/Data engineer – Online Advertising • NLP/

    Machine Learning – Multilingual Morphological Analysis – Text classification • Big data processing – In-memory aggregation engine for BI – Big Data processing for global social game About Me
  3. 中国語分かち書き |冬天 (winter)|,|能 (can)| 穿 (wear)| 多少 (amount)| 穿 (wear)

    | 多少 (amount)|;| |夏天 (summer)|,|能 (can) |穿 (wear) |多 (more) |少 (little) |穿 (wear) |多 (more) |少 (little)|。| • Without the word “夏天 (summer)” or “冬天 (winter)”, it is difficult to segment the phrase “能 穿多少穿多少” • 中国語の分かち書きには長距離素性を考慮する必要がある
  4. 系列ラベリングとしての 中国語分かち書き |冬天|, |能|穿|多少|穿|多少|;| B E S S S B

    E S B E S |夏天|, |能|穿|多|少|穿|多|少|。| B E S S S S S S S S S B: Begin E: End M: Middle S: Single • 1文字づつ {B, E, M, S}タグを付与する • 系列ラベリング手法によるタグを付与する
  5. Neural Model for Chinese Word Segmentation • 3層NN • タグ出力コストを

    NNで計算 • Window size以上の 長距離素性を 取り込めない RNN
  6. RNN (Recurrent Neural Network) NN RNN x y h x

    y h RNNでも長距離素性、 過去文脈は取り込みにくい LSTM
  7. Training 求めるモデルパラメータ • M: 文字のベクトル表現 • A: タグ連接コスト • W_{??}:

    LSTMのweight matrix 目的関数 • yがラベル系列なので 構造学習 • L2正則化 • 学習はSGD+AdaGradで 解いた • Dropoutも使用 ⊿: structured margin loss, s: タグ系列スコア
  8. Experiments • PKU, MSRA,CTB6 corpusに対して分かち書き の precision, recall, F1を測定 •

    パラメータ依存も調査 – Hyper-parameter – Dropout rate, – Context length • オリジナルモデルLSTM-2 – 4の評価も実施 – 普通のLSTM-1が一番良い結果
  9. Performances of LSTM-1 with the different context lengths and dropout

    rates on PKU test set. 精度のDropout rate, context length依存性 on PKU test set • Dropout rate=20T%が最高性能 => 普通に納得 • Dropoutは入力層にしか効かない、LSTM層では効果なし • Context length (0, 2): 前0,後2文字で最高性能 • LSTMの効果? • ほぼ同じだが、(0,2)が良いのは不思議 => xの次元が低いから?
  10. Performances on three test sets with random initialized character embeddings.

    • Character embeddingはrandom init • LSTMが3コーパス全てで最高性能 • 他の手法は • Zheng et al., 2013: 3層NN+系列ラベリング • Pei et. Et al., 2014: Zheng et al., 2013 + max margin training • 本手法: Pei et al. ,2014 + LSTM
  11. Performances on three test sets with pre- trained and bigram

    character embeddings. • Pre-trainはWord2Vecでcharacter embeddingを実施 • Bigram embeddingは2文字のベクトルの平均をとった • Pre-train + bigramが最高性能
  12. Comparison of our model with state-of- the-art methods on three

    test sets. • 3コーパスで現在最高性能 • Zhang et al. 2013は、外部情報(unlabeled data, 外部知識)を使っての 精度 • 本モデルはtraining corpusのみからの学習で最高性能を達成
  13. 所感 • NE, 日本語形態素解析に適用してみたい • 処理速度が気になる。辞書ベースの最小コスト法より 遅いだろうが、実装して試す – Kyteaよりも遅いかも。。。 •

    LSTMとGated RNN, RNNでなくて隠れ層のlinear combination modelとの比較、実装に興味がある。 – http://arxiv.org/abs/1510.02693 – LSTMの実装はつらそうなので。。。