Improving Language Understanding by Generative Pre-Training

Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan,
Tim Salimans, Ilya Sutskever 設楽朗人 1/10

従来のAIによる自然言語理解と課題自然言語理解(NLP) ・様々なタスクに対応する必要がある - Textual Retailing - Question Answering -
Semantic Similarity Assessment - Document Classification ・大量の Labeled な Dataset が必要これは手作業であり、しんどい・学習モデルを調整するために、最適化されていない heuristic な” 秘伝のタレ”が必要 2/10

自然言語理解AIに求められている要素・様々なタスクに汎用的に通用する・学習のためのラベリングの負担が少ない従来の手作業でのラベリングのコストを削減・学習モデルの細かい調整というタスクが必要ない学習モデルのパラメータ調整の大部分を人間がやる必要がないように 3/10

本稿の手法による自然言語理解本稿の目標：様々なタスクに汎用的に通用するモデル作成提案する手法： Unlabeled なコーパスと手作業でターゲットタスクに特化させた学習例のみを学習対象とする。これらは同じ領域(Domain)の文章である必要はない。学習の手順： 1.
Unlabeled Data に対して言語モデリングを行い初期パラメータを決定 2. 学習例を用いてターゲットタスクに適合させる 4/10

事前学習 Train フェーズ： Unlabeled な Corpus を Byte Pair Encoding(BPE)
という手法で tokenize し、以下で与えられる尤度を最大化する。 ※Θ は学習モデルのパラメータ, k は window size Predict フェーズ：右の計算により予測を出力 5/10

Transformer Transformer Block の処理・Multi-headed self-attention layer 予測すべきトークン以降のトークンの情報を隠した状態でトークンを予測できるよう学習
・Feed forward layer 実験時は活性化関数として GELU 関数を用いている・最適化アルゴリズム実験時は ADAM を使用している Ref: [1] 6/10 [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need, 2017.

Supervised fine-tuning 7/10 タスクに合わせたファインチューニングを行いながら言語モデル自体の学習も並行して実行することで、汎化性能の向上と収束の高速化を実現ファインチューニングの目標としては上記の L3 を最大化すること・L2
は各タスク毎のファインチューニングを行う尤度関数・L1 は事前学習における尤度関数・λ でそれらの割合を設定する

トランスフォーマーへの入力タスク毎に入力の形式は異なる。・Entailment は、・Start ・Delimiter ・Extract トークンが入力される・Similarity は、
・2つのText が入力されるなど 8/10

本稿の手法による成果自然言語理解(NLP)のタスクとして挙げた - Textual Retailing - Question Answering - Semantic
Similarity Assessment - Document Classification を含む12タスクのうち、9タスクで従来の最高記録を更新した。 Zero-shot(未知の Domain に対する振る舞い)についても有用な言語知識を有していることを実証した。 9/10

まとめ 10/10 ・AI の自然言語理解のための学習手法を提案・様々なタスクに汎用的に通用する・学習のためのラベリングの負担が少ない・学習モデルの細かい調整というタスクが必要ない - 事前学習 -
Transformer - Fine-Tuning - トランスフォーマーへの入力・本稿の手法の成果・各タスクに汎用的に高水準の結果・Zero-shot に対しても有用

Improving Language Understanding by Generative ...

Improving Language Understanding by Generative Pre-Training

himura467

More Decks by himura467

Other Decks in Research

Featured

Transcript

Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan,

従来のAIによる自然言語理解と課題自然言語理解(NLP) ・様々なタスクに対応する必要がある - Textual Retailing - Question Answering -

事前学習 Train フェーズ： Unlabeled な Corpus を Byte Pair Encoding(BPE)

Transformer Transformer Block の処理・Multi-headed self-attention layer 予測すべきトークン以降のトークンの情報を隠した状態でトークンを予測できるよう学習

トランスフォーマーへの入力タスク毎に入力の形式は異なる。・Entailment は、・Start ・Delimiter ・Extract トークンが入力される・Similarity は、

本稿の手法による成果自然言語理解(NLP)のタスクとして挙げた - Textual Retailing - Question Answering - Semantic

まとめ 10/10 ・AI の自然言語理解のための学習手法を提案・様々なタスクに汎用的に通用する・学習のためのラベリングの負担が少ない・学習モデルの細かい調整というタスクが必要ない - 事前学習 -