kagglerのためのAllenNLPチュートリアル

kagglerのための AllenNLPチュートリアル @tamaki_730

自己紹介 Studio Ousia エンジニア twitter: @tamaki_730 機械学習/自然言語処理周りを担当お客様のところにいったりも最近kaggleできてない

このLT何？ AllenNLPを使って過去の自然言語処理のコンペを解いてみる AllenNLPがどんな感じか伝わればいいな LT10分しかないので理論よりの話はしません kaggle kernelとgithubにコードあげてるので後ほどゆっくりみてください

kaggleでよくあるNLPタスク

テキスト分類

ここ最近のkaggleのNLPコンペ一覧 • Quora Questions Pairs • Toxic Comment Classification Challenge
• Quora Insincere Question Classification • Gendered Pronoun Resolution • Jigsaw Unintended Bias in Toxicity Classification comment_text: ボーダーコリーは賢い NLP Pipeline toxic: 0 テキストが与えられて、そのテキストが有害かどうかを判定するタスク

AllenNLPでの実装

AllenNLPって何？最新の自然言語処理のモデルを • 簡単に実装する • 実験しやすくする • 再現性があるようにするためのPyTorchで作られたライブラリ(多分). 各モジュールがうまく分割されていて再利用性が高い.
基本的にはDatasetReader, Model, Predictorを実装するだけでよい (このLTではPredictorの説明はしません)

NLP Pipeline 文を分割し、 ID列に変換前処理機械学習モデル ID列を受け取り、予測値を返す Input: ボーダーコリーは賢い
Output: [15, 31, 67] Input: [15, 31, 67] Output: 0~1

AllenNLP Pipeline DatasetReader 前処理機械学習モデル Model

DatasetReaderの役割 CSV, JSON等のテキストファイルを読み込み、Instanceのリストを返す input: {“comment_text”: “ボーダーコリーは賢い”, “toxic”: 0}... output: {'tokens':
tensor([15, 31, 67], ...) ‘label’: 0, ...} “ボーダーコリー”, “は”, “賢い” 15, 31, 67 単語分割 IDに変換

AllenNLP Pipeline DatasetReader 前処理機械学習モデル Model

Model • torch.nn.Moduleのサブクラス→PyTorchで普通に書くのと大体一緒 • Modelを抽象的に書くことができ、他の機能を試すのが楽 • allennlp.modulesを組み合わせてModelを書いてもいいし、自分でmodule を作ってもいい model実装例: https://github.com/allenai/allennlp/tree/master/allennlp/models
module実装例: https://github.com/allenai/allennlp/tree/master/allennlp/modules

よくあるPytorchのモデルとAllenNLPのモデル

抽象的にかけると何が嬉しいか？ • 簡単にmoduleを置き換えられるため比較実験がしやすい ◦ TextFieldEmbedderをword2vecからBERTに変える等 ◦ 単純なモデルから実験を始められるここはword2vec以外にgloveや elmo, BERTといった他の単語埋め
込みの機能をもつモジュールが使える

テキスト分類モデル単語埋め込み文埋め込み予測系列変換ボーダーコリーは賢い

単語埋め込み単語idをd 次元のベクトルで表現する 1単語につき1つのベクトルに変換 • word2vec, GloVe, fastText等文脈により単語のベクトルが変化 •
ELMo, BERT等ボーダーコリーは賢い

テキスト分類モデル単語埋め込み文埋め込み予測系列変換ボーダーコリーは賢い

テキスト分類モデル Token Embedder 文埋め込み予測系列変換ボーダーコリーは賢い

系列変換単語ベクトル列から単語ベクトル列を作る前後の単語を考慮し変換 • LSTM • self-attention • 何もしない

テキスト分類モデル Token Embedder 文埋め込み予測系列変換ボーダーコリーは賢い

テキスト分類モデル Token Embedder 文埋め込み予測 Seq2Seq Encoder ボーダーコリーは賢い

文埋め込み単語ベクトル列から文ベクトルを作る • Bag of Embedding • CNN + pooling
• LSTM(の最後の出力)

テキスト分類モデル Token Embedder 文埋め込み予測 Seq2Seq Encoder ボーダーコリーは賢い

テキスト分類モデル Token Embedder Seq2Vec Encoder 予測 Seq2Seq Encoder ボーダーコリーは
賢い

実際にjigsaw toxic comment classiﬁcation challengeやってみる

最初に試すモデル単語ベクトルを単純に平均して文ベクトルを作り、その文ベクトルから予測するモデル TokenEmbedder: Embedding(glove + fastText) Seq2SeqEncoder: なし Seq2VecEncoder:
Bag of Embedding best validation loss: 0.1658

次に試すモデル Seq2VecEncoderクラスを継承してSWEMEncoderを実装する SWEM (Simple Word-Embedding-based Methods) ACL2018 “Baseline Needs More
Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms” TokenEmbedder: Embedding(glove + fastText) Seq2SeqEncoder: なし Seq2VecEncoder: SWEMEncoder(concat) best validation loss: 0.1658 -> 0.1373

JSONで実験の設定を記述

JSONでモデルを変更抽象的に書いた部分はJSONで変更することができる実験の管理のしやすさからも基本的にはこちらをおすすめ

次に試すモデル Toxicコンペからよく使われているモデルのアーキテクチャ(厳密には少し違う) https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52644 TokenEmbedder: Embedding(glove + fastText) Seq2SeqEncoder: 2層のLSTM Seq2VecEncoder:
SWEMEncoder(concat) best validation loss: 0.1373 -> 0.0489

最後に試すモデル BERT. ここ最近のベースライン(重くて辛い) BERT (Bidirectional Encoder Representations from Transformers) NAACL
2019”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” TokenEmbedder: PretrainedBertEmbedder Seq2SeqEncoder: なし Seq2VecEncoder: BertPooler ...にしたかったが動かなかったのでほぼ同じモデルで代用参考: https://github.com/allenai/allennlp/blob/master/allennlp/models/bert_for_classification.py

最後に試すモデル BERT. ここ最近のベースライン(重くて辛い) BERT (Bidirectional Encoder Representations from Transformers) NAACL
2019”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” best validation loss: 0.0489 -> 0.0392 Private Score(AUC): 0.9839 Public Score(AUC): 0.9845 公開されているkernelのシングルモデルの中では一番AUCが高いが、 Discussionに出てくる上位のシングルモデルに負けるぐらいのモデル

まとめ AllenNLPはいいぞ NLPコンペ出よう

参考にしたサイト "Writing code for NLP Research" Tutorial at EMNLP 2018
https://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/ “An In-Depth Tutorial to AllenNLP (From Basics to ELMo and BERT)” http://mlexplained.com/2019/01/30/an-in-depth-tutorial-to-allennlp-from-basics-to-elmo-and-bert/

このLTの実装 kaggle karnel: https://www.kaggle.com/decoflight/allennlp-example github: https://github.com/RyujiTamaki/kaggle_allennlp

Appendix

DatasetReaderの実装 read: テキストをファイルから読み込んでパースし、text_to_instanceに渡す text_to_instance: readからの入力からInstanceを返す。InstanceはいくつかのFieldsを持つ。例)
TextField: Tokenizerで分割された文字や単語をいれる ArrayField: 配列をいれる

kagglerのためのAllenNLPチュートリアル

kagglerのためのAllenNLPチュートリアル

More Decks by RyujiTamaki

Other Decks in Programming

Featured

Transcript