Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EMNLP2015読み会-Long Short-Term Memory Neural Netw...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

EMNLP2015読み会-Long Short-Term Memory Neural Networks for Chinese Word Segmentation

Avatar for Masaki Rikitoku

Masaki Rikitoku

October 24, 2015
Tweet

More Decks by Masaki Rikitoku

Other Decks in Technology

Transcript

  1. Long Short-Term Memory Neural Networks for Chinese Word Segmentation Xinchi

    Chen, Xipeng Qiu, Chenxi Zhu, Pengfei Liu, Xuanjing Huang EMNLP2015読み会 Masaki Rikitoku 2015/10/24
  2. Masaki Rikitoku • NLP/Data engineer – Online Advertising • NLP/

    Machine Learning – Multilingual Morphological Analysis – Text classification • Big data processing – In-memory aggregation engine for BI – Big Data processing for global social game About Me
  3. 中国語分かち書き |冬天 (winter)|,|能 (can)| 穿 (wear)| 多少 (amount)| 穿 (wear)

    | 多少 (amount)|;| |夏天 (summer)|,|能 (can) |穿 (wear) |多 (more) |少 (little) |穿 (wear) |多 (more) |少 (little)|。| • Without the word “夏天 (summer)” or “冬天 (winter)”, it is difficult to segment the phrase “能 穿多少穿多少” • 中国語の分かち書きには長距離素性を考慮する必要がある
  4. 系列ラベリングとしての 中国語分かち書き |冬天|, |能|穿|多少|穿|多少|;| B E S S S B

    E S B E S |夏天|, |能|穿|多|少|穿|多|少|。| B E S S S S S S S S S B: Begin E: End M: Middle S: Single • 1文字づつ {B, E, M, S}タグを付与する • 系列ラベリング手法によるタグを付与する
  5. Neural Model for Chinese Word Segmentation • 3層NN • タグ出力コストを

    NNで計算 • Window size以上の 長距離素性を 取り込めない RNN
  6. RNN (Recurrent Neural Network) NN RNN x y h x

    y h RNNでも長距離素性、 過去文脈は取り込みにくい LSTM
  7. Training 求めるモデルパラメータ • M: 文字のベクトル表現 • A: タグ連接コスト • W_{??}:

    LSTMのweight matrix 目的関数 • yがラベル系列なので 構造学習 • L2正則化 • 学習はSGD+AdaGradで 解いた • Dropoutも使用 ⊿: structured margin loss, s: タグ系列スコア
  8. Experiments • PKU, MSRA,CTB6 corpusに対して分かち書き の precision, recall, F1を測定 •

    パラメータ依存も調査 – Hyper-parameter – Dropout rate, – Context length • オリジナルモデルLSTM-2 – 4の評価も実施 – 普通のLSTM-1が一番良い結果
  9. Performances of LSTM-1 with the different context lengths and dropout

    rates on PKU test set. 精度のDropout rate, context length依存性 on PKU test set • Dropout rate=20T%が最高性能 => 普通に納得 • Dropoutは入力層にしか効かない、LSTM層では効果なし • Context length (0, 2): 前0,後2文字で最高性能 • LSTMの効果? • ほぼ同じだが、(0,2)が良いのは不思議 => xの次元が低いから?
  10. Performances on three test sets with random initialized character embeddings.

    • Character embeddingはrandom init • LSTMが3コーパス全てで最高性能 • 他の手法は • Zheng et al., 2013: 3層NN+系列ラベリング • Pei et. Et al., 2014: Zheng et al., 2013 + max margin training • 本手法: Pei et al. ,2014 + LSTM
  11. Performances on three test sets with pre- trained and bigram

    character embeddings. • Pre-trainはWord2Vecでcharacter embeddingを実施 • Bigram embeddingは2文字のベクトルの平均をとった • Pre-train + bigramが最高性能
  12. Comparison of our model with state-of- the-art methods on three

    test sets. • 3コーパスで現在最高性能 • Zhang et al. 2013は、外部情報(unlabeled data, 外部知識)を使っての 精度 • 本モデルはtraining corpusのみからの学習で最高性能を達成
  13. 所感 • NE, 日本語形態素解析に適用してみたい • 処理速度が気になる。辞書ベースの最小コスト法より 遅いだろうが、実装して試す – Kyteaよりも遅いかも。。。 •

    LSTMとGated RNN, RNNでなくて隠れ層のlinear combination modelとの比較、実装に興味がある。 – http://arxiv.org/abs/1510.02693 – LSTMの実装はつらそうなので。。。