Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BERT:双方向Transformerによる汎用的な言語表現モデル

shu_suzuki
February 07, 2019

 BERT:双方向Transformerによる汎用的な言語表現モデル

長岡技術科学
自然言語処理研究室
第5回B3ゼミ
鈴木脩右

shu_suzuki

February 07, 2019
Tweet

More Decks by shu_suzuki

Other Decks in Technology

Transcript

  1. 概要 • BERT とは Bidirectional Encoder Representations from Transformer を略した言語表現モデル

    • 前後の文脈で事前学習を行う • 幅広いタスクに対応可能で,11 種類のテストで SotA を達成 3
  2. Feature-based • 独自の分散表現を得て,素 性として活用 • 代表例として.ELMoがある → 獲得した素性を NLP タ

    スクの入力層及び中間層に 連結するだけで、性能の向 上が図れる Figure 1: Simplified diagram of ELMo[4] 5
  3. Fine-tuning • 言語モデルを生成する形で 事前学習を行い, Finetuning でタスクに フィット • 代表例として.OpenAI GPT

    がある → Transformer の Decoder 部分を利用した単方向のモ デル Figure 2: Simplified diagram of Open AI GPT[4] 6
  4. Transformer • RNN 等の代わりに Attention を用いた Encoder-Decoder モデル • Attention

    は,query に一致 する key を索引し,対応す る value を取り出す操作 • Self-Attention は,各要素 が他の要素に対しての関連 性があるかを見る Figure 3: Simplified diagram of Transformer 7
  5. BERT • 双方向 Transformer • Transformer の Encoder 部 分を利用

    • マスク単語予測,隣接文予 測の 2 つのタスクで事前 学習 • 欠点として,学習コストが 高い Figure 4: Simplified diagram of BERT[4] 8
  6. マスク単語予測 • 従来のように次の単語を予測せず、マスクされた単語を周 辺情報から予測 • 系列単語の 15%を以下の確率で変換する • 80% :

    [MASK] トークンに変換 • 10% : ランダムな別単語に変換 • 10% : 変換しない • 前後の文脈を考慮した学習が可能 9
  7. 隣接文予測 • 文章の関係性を理解することが重要 • 2 つの文章を与え,隣接しているかを Yes/No で判定 • 文章

    A と B が与えられた時に、50%で別の文章 B に置換 • このタスクで文章単位での意味表現を獲得 10
  8. SQuAD : The Standford Question Answering Dataset • スタンフォード大が提供している,約 10

    万ペアの質問応答 データセット • 入力として, 「質問」と「Wikipedia の段落」を使う 12
  9. NER : CoNLL 2003 Named Entity Recognition dataset • Named

    Entity Recognition(固有表現抽出) とは,文中にある 固有名詞などを予め定義された固有表現分類に分類すること • 20 万のアノテーションされた固有表現のデータセット 13
  10. SWAG : The Situations With Adversarial Generatios dataset • 約

    11 万の完結したペア文例集 • 常識を使いながら推論するためのデータセット • ある文の続きを,4択から正しいものを選ぶタスク 14
  11. GLUE : The General Language Understanding Evaluation benchmark i •

    自然言語処理のためのデータセットの集合 • 全部で 9 つの内,BERT では 8 つを用いた 1. MNLI : Multi-Genre Natural Language Inference 約 43 万の含意関係に関するテキストペアデータ 2. QQP : Quora Question Pairs 2 つの質問が同じ意味かどうかを判定 15
  12. GLUE : The General Language Understanding Evaluation benchmark ii 3.

    QNLI : Question Natural Language Inference 質問応答データセット,質問と文が正答を含むか判定 4. SST-2 : The Stanford Sentiment Treebank 映画感想の感情分析で,ネガポジ判定 5. CoLA : The Corpus of Linguistic Acceptability 使われている英語が,言語学的に受け入れられるか判定 16
  13. GLUE : The General Language Understanding Evaluation benchmark iii 6.

    STS-B : The Semantic Textual Similarity benchmark ニュースの見出し等の感想ペアが意味が一致しているか判定 7. MRPC : Microsoft Research Paraphrase Corpus ニュースから自動抽出された文ペアが,同じ意味か判定 8. RTE : Recognizing Textual Entailment 文のペアに含意関係があるか判定 17
  14. 参考文献 [1] Bert(ディープラーニング)による自然言語処理は、どんなデータで評価されたの? どんな応用が できそう?| 忙しいあなたの代わりに、史上最強の良い本・良い暮らしのご提案. https: //it-mint.com/2018/11/06/datasets-of-deep-learning-bert-1603.html. (Accessed on

    02/06/2019). [2] [dl 輪読会]bert: Pre-training of deep bidirectional transformers for lang…. https://www.slideshare.net/DeepLearningJP2016/ dlbert-pretraining-of-deep-bidirectional-transformers-for-language-understanding. (Accessed on 02/07/2019). [3] 汎用言語表現モデル bert を日本語で動かす (pytorch) - qiita. https://qiita.com/Kosuke-Szk/items/4b74b5cce84f423b7125. (Accessed on 02/07/2019). [4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. 23