BERT:双方向Transformerによる汎用的な言語表現モデル

BERT 双方向Transformerによる汎用的な言語表現モデル鈴木脩右 2019/2/7 長岡技術科学大学自然言語処理研究室 1

目次概要理論的背景 BERT 評価実験まとめ 2

概要

概要 • BERT とは Bidirectional Encoder Representations from Transformer を略した言語表現モデル
• 前後の文脈で事前学習を行う • 幅広いタスクに対応可能で，11 種類のテストで SotA を達成 3

理論的背景

理論的背景 • 自然言語処理タスクにおいて，事前学習は有効 • 文章レベルのタスク (換言など) • トークンレベルのタスク (質問応答など) •
言語表現モデルの事前学習は 2 種類 • Feature-based • Fine-tuning 4

Feature-based • 独自の分散表現を得て，素性として活用 • 代表例として．ELMoがある → 獲得した素性を NLP タ
スクの入力層及び中間層に連結するだけで、性能の向上が図れる Figure 1: Simplified diagram of ELMo[4] 5

Fine-tuning • 言語モデルを生成する形で事前学習を行い， Finetuning でタスクにフィット • 代表例として．OpenAI GPT
がある → Transformer の Decoder 部分を利用した単方向のモデル Figure 2: Simplified diagram of Open AI GPT[4] 6

Transformer • RNN 等の代わりに Attention を用いた Encoder-Decoder モデル • Attention
は，query に一致する key を索引し，対応する value を取り出す操作 • Self-Attention は，各要素が他の要素に対しての関連性があるかを見る Figure 3: Simplified diagram of Transformer 7

BERT • 双方向 Transformer • Transformer の Encoder 部分を利用
• マスク単語予測，隣接文予測の 2 つのタスクで事前学習 • 欠点として，学習コストが高い Figure 4: Simplified diagram of BERT[4] 8

マスク単語予測 • 従来のように次の単語を予測せず、マスクされた単語を周辺情報から予測 • 系列単語の 15%を以下の確率で変換する • 80% :
[MASK] トークンに変換 • 10% : ランダムな別単語に変換 • 10% : 変換しない • 前後の文脈を考慮した学習が可能 9

隣接文予測 • 文章の関係性を理解することが重要 • 2 つの文章を与え，隣接しているかを Yes/No で判定 • 文章
A と B が与えられた時に、50%で別の文章 B に置換 • このタスクで文章単位での意味表現を獲得 10

評価実験

評価実験４つのベンチマークセットが用いられている． • SQuAD • NER • SWAG • GLUE
11

SQuAD : The Standford Question Answering Dataset • スタンフォード大が提供している，約 10
万ペアの質問応答データセット • 入力として，「質問」と「Wikipedia の段落」を使う 12

NER : CoNLL 2003 Named Entity Recognition dataset • Named
Entity Recognition(固有表現抽出) とは，文中にある固有名詞などを予め定義された固有表現分類に分類すること • 20 万のアノテーションされた固有表現のデータセット 13

SWAG : The Situations With Adversarial Generatios dataset • 約
11 万の完結したペア文例集 • 常識を使いながら推論するためのデータセット • ある文の続きを，４択から正しいものを選ぶタスク 14

GLUE : The General Language Understanding Evaluation benchmark i •
自然言語処理のためのデータセットの集合 • 全部で 9 つの内，BERT では 8 つを用いた 1. MNLI : Multi-Genre Natural Language Inference 約 43 万の含意関係に関するテキストペアデータ 2. QQP : Quora Question Pairs 2 つの質問が同じ意味かどうかを判定 15

GLUE : The General Language Understanding Evaluation benchmark ii 3.
QNLI : Question Natural Language Inference 質問応答データセット，質問と文が正答を含むか判定 4. SST-2 : The Stanford Sentiment Treebank 映画感想の感情分析で，ネガポジ判定 5. CoLA : The Corpus of Linguistic Acceptability 使われている英語が，言語学的に受け入れられるか判定 16

GLUE : The General Language Understanding Evaluation benchmark iii 6.
STS-B : The Semantic Textual Similarity benchmark ニュースの見出し等の感想ペアが意味が一致しているか判定 7. MRPC : Microsoft Research Paraphrase Corpus ニュースから自動抽出された文ペアが，同じ意味か判定 8. RTE : Recognizing Textual Entailment 文のペアに含意関係があるか判定 17

実験結果 i Table 1: GLUE Test results[4] 18

実験結果 ii Table 2: SQuAD Test results[4] 19

実験結果 iii Table 3: NER Test results[4] 20

実験結果 iv Table 4: SWAG Test results[4] 21

まとめ

まとめ • BERT とは，双方向 Transformer による言語表現モデル • 前後の文脈を考慮した学習が可能 • マスク単語予測，隣接文予測の
2 つのタスクで事前学習 • 実験結果より，汎用性が高いことが証明 22

参考文献 [1] Bert（ディープラーニング）による自然言語処理は、どんなデータで評価されたの？どんな応用ができそう？| 忙しいあなたの代わりに、史上最強の良い本・良い暮らしのご提案. https: //it-mint.com/2018/11/06/datasets-of-deep-learning-bert-1603.html. (Accessed on
02/06/2019). [2] [dl 輪読会]bert: Pre-training of deep bidirectional transformers for lang…. https://www.slideshare.net/DeepLearningJP2016/ dlbert-pretraining-of-deep-bidirectional-transformers-for-language-understanding. (Accessed on 02/07/2019). [3] 汎用言語表現モデル bert を日本語で動かす (pytorch) - qiita. https://qiita.com/Kosuke-Szk/items/4b74b5cce84f423b7125. (Accessed on 02/07/2019). [4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. 23

BERT:双方向Transformerによる汎用的な言語表現モデル

BERT:双方向Transformerによる汎用的な言語表現モデル

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript