Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Trends in Natural Language Processing at NeurIPS 2019.

Ayana Niwa
April 30, 2020

Trends in Natural Language Processing at NeurIPS 2019.

Ayana Niwa

April 30, 2020
Tweet

More Decks by Ayana Niwa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 丹⽻ 彩奈 (Ayana Niwa) •所属 東京⼯業⼤学 情報理⼯学院 岡崎研究室 博⼠課程⼀年

    •興味のある分野 ⾃然⾔語処理 # 構⽂解析 # ⽂⽣成 # 感情分析 2 @ayana_nw1213
  2. NeurIPSにおけるNLP 4 ⾃然⾔語処理に関する発表件数がここ数年で倍増 20 17 44 48 0 10 20

    30 40 50 60 2016 2017 2018 2019 ⾃然⾔語処理に関する発表件数 NeurIPS2019では模倣学習の⾔語処理応⽤への適⽤に関するチュートリアルも開催 - Imitation Learning and its Application to Natural Language Generation ⾃然⾔語処理と深層学習はもはや切っても切れない関係にあり, NeurIPSにおいても今後より多くの研究発表が期待される ⾃然⾔語処理に関する発表のカテゴリ(※)と各件数 (※)著者が投稿時に指定したもの
  3. 今回注⽬する論⽂ 教育現場でもよく使われる Speech and Language Processing (SLP) 3rd Edition にも掲載予定

    https://web.stanford.edu/~jurafsky/slp3/ Transformerがこの2年でどのような変化を遂げたのか, またどのような問題を残しているのかを NeurIPS2019の発表に沿って⾒ていく 本発表の趣旨 そのアーキテクチャや性能の⾼さ(後述)から注⽬を浴びた 被引⽤数6,915件(2020/04/12時点) Attention Is All You Need(NIPS2017) RNN や CNN を使わずにAttentionのみを使⽤した 画期的なニューラル機械翻訳モデルTransformerの提案 5 ここ2ヶ⽉でも 約900件引⽤数が増加
  4. Transformerが出てきた背景 RNNs (Recurrent Neural Networks) J前のトークンを踏まえた学習が可能 CNN (Convolutional Neural Network)

    J並列化が可能 J各単語の付近の情報を捉えられる イメージ図 L逐次計算により並列化が難しい Lデータの階層性を捉えづらい L⻑距離の依存関係を捉えづらい Lフィルタ幅以内の依存関係しか 捉えられない L⼤局的な位置情報が失われる Pros Cons Hierarchical architectures 6 イメージ図 Sequential architectures 単語の意味ベクトルを合成し,句や⽂の意味ベクトルをつくる際の⼆⼤⼿法 ※意味ベクトル • • • 分散表現や埋め込み表現(英語だとWord embedding/representation)とも⾔う. This is an apple フィルタ幅 3 フィルタ幅 4
  5. Transformerが出てきた背景 RNNs (Recurrent Neural Networks) J前のトークンを踏まえた学習が可能 CNN (Convolutional Neural Network)

    J並列化が可能 J各単語の付近の情報を捉えられる イメージ図 L逐次計算により並列化が難しい Lデータの階層性を捉えづらい L⻑距離の依存関係を捉えづらい Lフィルタ幅以内の依存関係しか 捉えられない L⼤局的な位置情報が失われる Pros Cons Hierarchical architectures フィルタ幅 3 7 イメージ図 Sequential architectures 単語の意味ベクトルを合成し,句や⽂の意味ベクトルをつくる際の⼆⼤⼿法 ※意味ベクトル • • • 分散表現や埋め込み表現(英語だとWord embedding/representation)とも⾔う. This is an apple 回帰型ではなくても(CNNのPros)系列を扱える(RNNsのPros) , 並列化しやすい(CNNのPros)アーキテクチャが求められていた ここで注⽬されたのがAttention mechanism フィルタ幅 4
  6. Attention mechanism(事前知識) これ は りんご です ℎ!"# ℎ!"$ ℎ!"% ℎ!"&

    # $ % This is an & apple ⨁ ! " # $ 予測を⾏う際に, ⼊⼒側の隠れベクトルℎ%&' を 重み ' で加重平均をとった ベクトル(⽂脈ベクトル)も⽤いる ⽇(これはりんごです)à 英(This is an apple)の翻訳例 Attention mechanism Source-Target-Attention:デコード時に⼊⼒情報を参照 Self-attention:下の隠れ層の全ての位置(⾃分⾃⾝)を参照 à上記の例 à Transformerのキモ Attentionとは,⼀⾔で⾔うと系列中の重要な情報を取捨選択して利⽤する仕組み 8 重要度低 重要度⾼
  7. Transformerが出てきた背景 Self-Attentionをベースとした 系列変換モデルを提案 分散表現の合成(単語 à 句や⽂)にAttentionを使えないか? ℎ!"# ℎ!"$ ℎ!"% ℎ!"&

    ℎ!"# ℎ!"$ ℎ!"% ℎ!"& This is an apple This is an apple 9 これは,フィルタ幅を単語 数にして,畳み込みなどの 処理をAttentionに置き換え たCNNの発展系と考えるこ ともできる CNNの例 Self-attentionレイヤ Feed-Forward Networkなど This is an apple Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.
  8. Transformerのアーキテクチャ Self-attentionのメリット 10 各⽂に対して⼀定回 数の処理で済む J並列化しやすい JRNNsより⾼速な計算 J⻑距離の依存関係 を学習しやすい Self-attentionは全ての

    トークンを直接参照可能 ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ⼆つのトークンを結ぶ 最⼤経路⻑が短いほど ⻑距離の依存関係を学習 しやすくなる 1 層あたりの計算複雑性が Self-attention < RNN (※) トークン数 , 次元数 (※)多くの場合 トークン数 ≪ 次元数なので Self-attention < RNN ( $ ) < ( $ ) 典型値: = 50程度,は768,1024など Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.
  9. Transformerのアーキテクチャ Self-attentionのメリット 11 各⽂に対して⼀定回 数の処理で済む J並列化しやすい JRNNsより⾼速な計算 J⻑距離の依存関係 を学習しやすい Self-attentionは全ての

    トークンを直接参照可能 ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ⼆つのトークンを結ぶ 最⼤経路⻑が短いほど ⻑距離の依存関係を学習 しやすくなる 1 層あたりの計算複雑性が Self-attention < RNN (※) Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017. トークン数 , 次元数 (※)多くの場合 トークン数 ≪ 次元数なので Self-attention < RNN ( $ ) < ( $ ) 典型値: = 50程度,は768,1024など Self-attentionなら RNNsとCNNのPros/Consをうまく補い合える,
  10. Transformerのアーキテクチャ Multi-head attention 複数のSelf-attentionレイヤを並列に配置する (Multi-head attention)ことで,複数の⾔語現象を学習 [1]Elena Voita, et al.,

    "Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned.”, ACL 2019. 12 From “The Story of Heads”, Head Functions section, Elena Voita, https://lena-voita.github.io/posts/acl19_heads.html (2019) 低頻度語 統語情報 位置情報 各headが捉えている⾔語現象例[1] (捉えている情報が解釈できないheadもある) ⼀つのSelf-Attentionレイヤのみ(Single-head attention)を⽤いた場合 L各単語情報の重み付け和により情報を損失してしまう
  11. Transformer まとめ Self-attentionのみで句や⽂の分散表現を獲得 Multi-head self-attentionにより, 複数の⾔語現象を並列に学習可能 主流なアーキテクチャであるRNNsとCNNそれぞれの⻑所を継承 計算量も削減 +並列処理可能 +

    ⻑距離の依存関係を考慮可能 + Positional encodingにより,各トークンの位置情報を保持 性能・汎⽤性ともに優れたモデルアーキテクチャで 注⽬を浴び,その後⽣成系のタスクのスタンダードになってきている 機械翻訳および句構造解析タスクを⽤いた実験で良い性能 15 Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.
  12. (1) タスクに特化したアーキテクチャの導⼊ (2) ⻑⽂処理における計算負荷の軽減 (3) ⾃然⾔語が有する階層性の活⽤ (4) モデルアーキテクチャの最適化 など… Transformerの改善の⽅向性

    単語の まとまり 句の まとまり ⽂の まとまり ⾔語の階層性 イメージ図 From "Tree Transformer: Integrating Tree Structures into Self-Attention.”, Yau-Shian Wang et al., EMNLP2019, Figure 1(A) (2019) 16 ⼀⽅で,各タスクでの性能や, 学習の効率化などの点で発展の余地はまだまだある
  13. Transformerの改善の⽅向性 (1) タスクに特化したアーキテクチャの導⼊ (2) ⻑⽂処理における計算負荷の軽減 è Reformer(ハッシュ値を⽤いた類似度計算により計算負荷軽減)[1] (3) ⾃然⾔語が有する階層性の活⽤ è

    Tree transformer(⽊構造を導出するように制約をかけて改善)[2] (4) モデルアーキテクチャの最適化 è Evolved transformer(NASを適⽤し,最適なアーキテクチャを探索)[3] など… (2)〜(4)のように,Transformer内部の アーキテクチャの改良も⾏われてきている 17 [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020. [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019. [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.
  14. Transformerの改善の⽅向性 (1) タスクに特化したアーキテクチャの導⼊ (2) Multi-head導⼊による計算量が⼤きい (3) 計算量の問題により扱える系列⻑(単語数)に限界がある è Reformer(ハッシュ値を⽤いた類似度計算により計算負荷軽減)[1] (4)

    ⾔語の階層性を捉えられない è Tree transformer(⽊構造を導出するように制約をかけて改善)[2] (5) アーキテクチャが⼈⼿設計 è Evolved transformer(NASを適⽤し,最適なアーキテクチャを探索)[3] など… ↑ NeurIPS2019では(1)に関する発表が⾒られた ↑ 18 [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020. [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019. [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.
  15. NeurIPS2019におけるTransformer Transformer ⼀般化モデル タスク特化型モデル アーキテクチャの変更 横断型モデル BERT 学習時間問題 Context word

    representation 問題点 ⽅向性① タスクに特化した アーキテクチャの導⼊ 近年では,機械翻訳, ⽂書要約[1] , 質問応答[2] などのモデルに組み込まれている NeurIPS2019の発表では機械翻訳をベンチマークに適⽤したものが⾒られた [1]Elozino Egonmwan, and Yllias Chali. "Transformer-based Model for Single Documents Neural Summarization." Proceedings of the 3rd Workshop on Neural Generation and Translation. 2019. [2]Taihua Shao, et al. "Transformer-based neural network for answer selection in question answering." IEEE Access 7 (2019): 26146-26156. Transformer ?? 19
  16. ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して Levenshtein Transformer[Jiatao Gu et al.] 翻訳時のデコードのプロセスを柔軟にするため,編集操作により⽂を⽣成 トークンを回帰するのではなく,

    ⽂を繰り返し編集することにより, ⽂の⽣成・修正を⾏う 20 主流な⽂⽣成⽅法:左から右に⼀単語ずつ予測 (Left-to-right) ⼈間は,単語を挿⼊したり削除したりしな がら作⽂する(つまり編集操作) è このようなLeft-to-rightの⼀単語ずつ出⼒ する⼿法はフレキシブルでない Transformer 編集操作(挿⼊および削除) Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.
  17. ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して Levenshtein Transformer[Jiatao Gu et al.] どのトークンを削除するか? どの位置に挿⼊するか?

    どのトークンを挿⼊するか? 終了条件を満たすまで 繰り返す 挿⼊操作・削除操作を模倣学習により同時に学習 21 編集操作を組み込んだLevenshtein Transformer From "Levenshtein transformer.”, Jiatao Gu et al., NeurIPS2019, Figure 1(2019) Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.
  18. 後者の液体液体ヘリウムヘリウム2.22.2T。 後者の液体液体ヘリウムヘリウム2.22.2T。 後者のコイルは液体ヘリウム中で2.2Tで発⽣した。 Insertion Deletion Insertion Deletion --なし-- 最⼤5倍まで学習速度を向上させつつ Transformerと同等以上の精度

    Levenshtein TransformerによるParallel decodingの場合 Greedy decodingの場合(主流な⼿法である⾃⼰回帰モデル) 予測回数 2回 予測 予測 ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して Levenshtein Transformer[Jiatao Gu et al.] 22 Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019. Memo ICML2019では挿⼊操作のみを⾏う Insertion Transformer[1]も発表され, 編集操作を⽤いたParallel decodingへの 関⼼の⾼まりを感じた. [1] Mitchell Stern et al., “Insertion Transformer: Flexible Sequence Generation via Insertion Operations”, ICML2019 予測回数 11回
  19. ターゲットドメインの語彙情報を利⽤ ソフトプロトタイプを組み込んだTransformer 23 Yiren Wang, et al. "Neural Machine Translation

    with Soft Prototype." NeurIPS2019. (対応策)ターゲットドメインにある完全⽂を プロトタイプとして予測過程に組み込む 本研究では,情報量が多く低分散なプロトタイプを効率的に⽣成 するためのソフトプロトタイプを⽤いたフレームワークを提案 ターゲットドメインの情報はその 前ステップ までの単語しか⾒られない.不完全で部分的L This is an orange . プロトタイプ(例) 組み込み ニューラル機械翻訳における問題 ターゲットドメインの単語周りの⼀貫性を学べる - (例)orangeにはanなんだ… しかし既存の⼿法では… プロトタイプに⼀⽂のみを⽤いている(ハードプロトタイプと⾔う)ため⾼分散で 情報量に限界.さらにその⽣成に⾃⼰回帰モデルを要するので⾮効率的
  20. 24 Transformer ターゲットドメインの情報を参照する機構 ターゲットドメインの語彙情報を利⽤ ソフトプロトタイプを組み込んだTransformer ソース⽂ ターゲット⽂ これはりんごです This is

    an apple はターゲットドメインの語彙情報を表すベクトル ⾏列()の各⾏はソース⽂の各単語( を マッピングしたターゲットドメインの語彙分布(() J低分散でより多くの情報を含む. Jさらに⾮⾃⼰回帰で効率的 パラメータ数や推論に要する時間をハードプロトタイプを⽤いた 既存⼿法より抑えつつ,より良い予測精度を⽰した プロトタイプ () " : ターゲットドメインの埋め込み⾏列 ハードプロトタイプ ならone-hotベクトル |' | (りんご) (Apple, Pearあたりが⾼い?) (これ) ( This, That, Itあたりが⾼い?) (は) ( Is, Are, Lookあたりが⾼い?) … これ は です 。 ! :ターゲットドメインの語彙 りんご Yiren Wang, et al. "Neural Machine Translation with Soft Prototype." NeurIPS2019.
  21. ⾃然⾔語処理における事前学習とは Model training ⼤量のラベルなしデータから汎⽤的な⾔語知識を獲得するための学習 近年,⾃然⾔語処理における有効性が多く報告されている 26 アプローチ① 素性抽出器 Step1 事前学習

    Step2 転移学習 特定タスクに適⽤ 分類 系列ラベリング 質問応答… ⼤量の ラベル無し データ 少量の ラベルあり データ アプローチ② Fine-tuning 事前学習モデルの パラメータを固定 ⾃然⾔語を特徴量に変換 事前学習モデルの パラメータを初期値と して再学習
  22. ⽂脈を考慮した表現 (Context-aware representations) Context-free representations Context-aware representations 周りの⽂脈によって同じ単語でも 違うベクトルが割り振られる ⽂脈関係なく⼀つの単語に

    ⼀つのベクトルが割り振られる Context-aware representationを⽤いることで 様々なタスクの性能が⼤きく向上することが知られる ⾸を痛める 会社を⾸になる ⾸ベクトル ⾸ベクトル ⾸を痛める 会社を⾸になる ⾸ベクトル ⾸ベクトル 同じ 異なる 28 ⽂脈を考慮しない表現(単語表現のみ)をContext-free representations, ⽂脈を考慮する表現をContext-aware representationsとも呼ぶ
  23. BERT Transformerのエンコーダを12/24層重ねた巨⼤モデル [CLS] the man went to [MASK] store .

    [SEP] Left-to-right Right-to-left Bidirectional (BERT) 双⽅向の⽂脈を考慮可能 BERT 文内における トークン間の関係を学習 文対の関係を学習 事前学習タスク① Masked LM(MLM) 事前学習タスク② 隣接文予測(NSP) BERT 文内における トークン間の関係を学習 文対の関係を学習 事前学習タスク① Masked LM(MLM) 事前学習タスク② 隣接文予測(NSP) 31 Jacob Devlin et al., "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL2019.
  24. BERTが与えたインパクト ★ ★ ★ ★ ★ ★ ★ ★ ★

    GLUE Leaderboard SuperGLUE Leaderboard (NeurIPS2019) Human baseline ★ Transformerが使われているモデル ★ BERTが使われているモデル ・GLUEのスコアが低い2タスク以外を より難易度の⾼いタスクに変更 ・タスクのフォーマットも多様化 - 共参照解析,質問応答が追加 2018年10⽉質問応答タスクSQuAD 1.1で⼈間超え 当時⼤きな話題に 最近は⾃然⾔語理解に関するベンチマークデータセットGLUEにおいて BERTを拡張したモデルが上位の多くを占めている https://gluebenchmark.com/ , https://super.gluebenchmark.com/ 32 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ⼈間の スコア Human baselineは12位まで後退(2020/04/13現在)
  25. BERTの改善の余地 34 [1] Yinhan Liu et al., "Roberta: A robustly

    optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019). Masked LM(MLM) L[MASK]トークンの取り扱いに難あり(後述) 特定タスクにおける性能低下 ex. 双⽅向性により⽂⽣成時の精度が良くない そもそも適切な事前学習タスクになっているのか? より横断的なタスクに応⽤したい 隣接⽂予測 (NSP) L負例は別の⽂書から取得した⽂をペアにするため, 各⽂書のトピックを判定できれば解けてしまう e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない 精度にあまり寄与しないこともわかった [1] マルチモーダル,クロスリンガル(⾔語横断)
  26. BERTの改善の余地 36 Masked LM(MLM) L[MASK]トークンの取り扱いに難あり(後述) 特定タスクにおける性能低下 ex. 双⽅向性により⽂⽣成時の精度が良くない そもそも適切な事前学習タスクになっているのか? より横断的なタスクに応⽤したい

    マルチモーダル,クロスリンガル(⾔語横断) 各タスクに特化した アーキテクチャの導⼊ UniLM(⽣成⾯の強化) ViLBERT(マルチモーダル) XLMs(クロスリンガル) 事前学習 タスクの変更 XLNet (NSPの廃⽌・ MLMの代替タスクを導⼊) 隣接⽂予測 (NSP) L負例は別の⽂書から取得した⽂をペアにするため, 各⽂書のトピックを判定できれば解けてしまう e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない 精度にあまり寄与しないこともわかった [1] [1] Yinhan Liu et al., "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
  27. ②⼊⼒情報のノイズ Fine-tuning時には [MASK]が存在しない Memo 本⽇紹介する研究の中で 唯⼀のOral presentation XLNetが注⽬したBERTのMasked LMにおける 問題点は以下の2点

    Masked LMの精緻化 XLNet [Zhilin Yang et al.] 37 Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. [MASK] dog yard [MASK] ①単語間の独⽴性を仮定 [MASK]トークン間の 依存関係を考慮できない I have a [MASK] . dog
  28. à双⽅向の⽂脈を考慮できる⾃⼰回帰モデルPermutation LMを提案 Masked LMの精緻化 XLNet [Zhilin Yang et al.] 38

    Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. 解決⽅法:⾃⼰回帰モデルに変更 J単語間の同時確率を考慮可能 J[MASK]トークン不要 (York|New) " # $ New York is a " ℎ! York ! (is|New, York) " # $ New York is a ℎ" is ! a New, York, is ) " # $ New York is a ℎ# ! # $ … … … しかし… L双⽅向の⽂脈を考慮できない(BERTの良さ) a 単⽅向(左)の ⽂脈のみ
  29. Masked LMの精緻化 XLNet [Zhilin Yang et al.] • Permutation LM

    çXLNet ⼊⼒系列の順番はそのままで,トークンの予測順序を⼊れ替え(Permutation) 20タスクでBERTを超え,18タスクでSOTAを達成 簡略化したイメージ図(実際はTwo-stream attentionなどのテクニックが組み込まれるのでもっと複雑) 39 全ての可能な予測順序を考慮することで双⽅向の⽂脈を組み込める Zhilin Yang, et al. “Xlnet: Generalized autoregressive pretraining for language understanding.” NeurIPS2019, slide p.7を参考に具体例で書き直したもの Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. (⼊⼒系列)New, York, is, a, city (予測順序)4à2à1à3à0 (city, is, York, a, New) à J⾃⼰回帰モデルとBERTの良いところどりをしたモデル
  30. 複数の⾔語モデルを使い分け UniLM [Li Dong et al.] Li Dong, et al.

    "Unified language model pre-training for natural language understanding and generation." NeurIPS 2019. 40 事前学習モデルには様々な⾔語モデリングタスクが⽤いられてきた ⾔語理解タスクでは J精度を⼤きく向上 ⾔語⽣成タスクでは Lそうでもない ⾔語理解・⾔語⽣成両⽅に適⽤可能な事前学習⾔語モデルを作りたい! 三つの⾔語モデリングタスクを統合(Unify)したTransformerネットワークUniLMを提案 これ は 昨⽇ 買った りんご です 。 MASK これ は 昨⽇ 買った りんご です 。 MASK これ は 昨⽇ 買った りんご です 。 スーパー で 200 円 で 買え ました 。 MASK 双⽅向性 MASK 単⽅向⾔語モデル 双⽅向⾔語モデル Seq2seq⾔語モデル ソース側・ターゲット側を連結して⼊⼒ From "Unified language model pre-training for natural language understanding and generation.”, Li Dong, et al., NeurIPS2019,Table 1(2019)
  31. 複数の⾔語モデルを使い分け UniLM [Li Dong et al.] ⾔語理解タスク(GLUEなど)でBERTと同程度の精度を出しつつ. ⽣成タスク(抽象要約など)でSOTA BERT ×

    ⾔語理解・⽣成の両⽴ = UniLM コアアイデア:Self-attention Mask(参照できるアテンションを制限できる)の位置を 変更することで⼀つのモデルで 三つの⾔語モデリングタスクを学習できる! Transformerのパラメータは共有 Fine-tuning時に どの情報を使うかをmaskで変更 (例)⾔語⽣成タスクなら Seq2seq⾔語モデルとしてUniLMを使う “は”から”りんご”には アクセスできない. 後ろのトークンは参照できない à 単⽅向になっている! Left-to-rightの場合 41 Li Dong, et al. "Unified language model pre-training for natural language understanding and generation." NeurIPS 2019. From "Unified language model pre-training for natural language understanding and generation.”, Li Dong, et al., NeurIPS2019, Figure 1(2019)
  32. 画像と⾔語のjoint representationの獲得 ViLBERT [Jiasen Lu et al.] Jiasen Lu et

    al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019 42 近年, 画像×⾔語(マルチモーダル) に関する研究も盛んに⾏われている 画像と⾔語の抽象度は異なる à 別々に処理したいがお互いの対応関係も学習したい ⾔語 画像 Co-attentional transformerレイヤ 画像と⾔語を別々に処理するTwo-streamモデルに 画像と⾔語を対応づける機構を組み込んだViLBERTを提案 From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, slides p.15, Figure 1
  33. 画像と⾔語のjoint representationの獲得 ViLBERT [Jiasen Lu et al.] Visual Question Answering(VQA)をはじめとする

    四種類のvision-and-language taskで最⾼精度を達成 43 BERT × マルチモーダル = ViLBERT 事前学習タスク① Masked multi-modal learning 事前学習タスク② Multi-modal alignment prediction “Flowers”からAttentionが張られた画像 Jiasen Lu et al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019 From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, Figure 3, slide p.24
  34. 単⾔語コーパスとパラレルコーパスの活⽤ XLMs [Guillaume Lample and Alexis Conneau] Guillaume Lample and

    Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019 44 単⾔語モデル 英語 BERT Encoder 分類器 英⽂ 多⾔語モデル ç こちらに注⽬! 多⾔語 BERT Encoder 分類器 英⽂ 仏⽂ 露⽂ 多⾔語⽂を同⼀埋め込み空間にエンコード BERTを拡張し,単⾔語コーパスのみを⽤いた教師なし・パラレルコー パスを⽤いた教師ありの⼆種類の多⾔語事前学習を⾏うXLMsを提案 これはりんごです. This is an apple. パラレル コーパス 単⾔語 コーパス
  35. 事前学習タスク①多⾔語に対して⾔語ごとにMasked LM(単⾔語,教師なし) 事前学習タスク②TLM(Translation Language Modeling)(多⾔語,教師あり) 教師なし・あり機械翻訳, XNLIタスク(※)においてSOTA 特にMasked LMとTLMを組み合わせると精度をブーストできる à

    パラレルコーパス活⽤の効果 45 BERT × 多⾔語表現の獲得 = XLMs ⾔語間の対応関係を学習 Multi-lingual BERTと⽐較しても良い結果! (※) 教師あり: WMT’16 Romanian-English 教師なし: WMT’16 German-English XNLI:15⾔語の⽂分類の評価セット Guillaume Lample and Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019 From "Cross-lingual language model pretraining.”, Guillaume Lample, and Alexis Conneau., NeurIPS2019, Figure 1(2019) 単⾔語コーパスとパラレルコーパスの活⽤ XLMs [Guillaume Lample and Alexis Conneau]
  36. (おまけ)事前学習モデルの概観 46 From "Pre-trained Models for Natural Language Processing: A

    Survey.”, Xipeng Qiu, et al., arXiv preprint arXiv:2003.08271, Figure 3 (2020). ⽂の順序 隣接⽂か否か トークンが置換されているか否か 画像だけではなく動画・ ⾳声とも横断して学習 Masked LMやNSPの 代替タスクもいくつか 発表されている XLMsと同じ筆頭著者による研究(ACL2020). より⼤規模なデータ・多くの⾔語で学習 今回紹介した 論⽂のカテゴリ ドメインや⾔語特化の モデルも増えてきた ドメイン特化 ⾔語特化 タスクのタイプ モデルの拡張
  37. NeurIPS2019におけるTransformer Transformer ⽅向性② 事前学習モデルの ベースとして⽤いる BERT ⽅向性① タスクに特化した アーキテクチャの導⼊ 新しいモデル

    の提案 47 モデルサイズ の問題 分散表現に関する 諸問題 Transformerに関する ホットなトピック 事前学習モデル全体に⾔える問 題. NeurIPS2019ではBERTのサイズ 削減に取り組んだ研究が⾒られた
  38. モデルサイズの近年の傾向 事前学習モデルのパラメータ数は年々増加 Tuning-NLG 現時点で最⼤の パラメータ数である170億 学習の⾼速化のため,オプティマイザ ZeRO(NeurIPS2019発表)を使⽤ パ ラ メ

    $ タ 数 BERT 48 ⼤きいモデルほど良い結果を⽰す,という近年のトレンドにより https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/に追加 エネルギー効率がよく最⼩限のコストで学習・推論が⾏えるモデルが求められる
  39. 計算量削減へのアプローチ ①学習時間の削減 ②推論時間の削減 学習・推論の両⽅に適⽤可能 Ouroboros(モデル並列化)[1] Q8BERT(量⼦化)[2] Tensorized Transformer(モデル圧縮) [3] DistilBERT(蒸留)[4]

    [1]Qian Yang, et al. "Ouroboros: On Accelerating Training of Transformer-Based Language Models.”, NeurIPS2019. [2]Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019. [3]Xindian Ma, et al. "A tensorized transformer for language modeling.", NeurIPS2019. [4]Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. 並列化・量⼦化 推論のみに適⽤可能 圧縮・蒸留 今回はこの中からQ8BERTとDistilBERTを紹介 49
  40. 量⼦化によるメモリ使⽤量の削減 Q8BERT [Ofir Zafrir et al.] à BERTを8bitに量⼦化したQ8BERTを提案 モデルの重みの99%以上を占めるEmbedding/Fully connected

    layerを8bitに量⼦化 ⾼精度が必要なオペレーション(Softmax, Layer Normalization, GELU)は32bitのまま 実稼働環境で⼤きな事前学習済みモデルを使う際にも メモリなどのリソースの問題が⽣じる 具体的には… BERTのFine-tuning時にQuantization-aware training(QAT)を⾏う Quantization-aware training: 推論時に量⼦化することを前提に学習すること ↔ Post training quantization : 推論時に量⼦化すること ベースにJacob[1]らのフレームワークを採⽤(次スライド) 50 Workshop Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019.
  41. 8bitへの量⼦化により,32bitのBERTの精度を99%保持しつつ メモリ使⽤量を4倍⼩さくできる.Post training quantizationよりも良い結果 Fine-tuning時 推論時 量⼦化して推論 51 http://nlp_architect.nervanasys.com/quantized_bert.html Ofir

    Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019. From "Q8bert: Quantized 8bit bert.", Ofir Zafrir, et al., NeurIPS2019. poster(2019) Fake Quantizationを導⼊(Jacobら提案) Forward時にはFloatのパラメータを量⼦化した際の値, Back propagation時には量⼦化前の値を⽤いる NLP Architectにてコードも公開中 量⼦化によるメモリ使⽤量の削減 Q8BERT [Ofir Zafrir et al.] Workshop
  42. 蒸留による⾼速化 DistilBERT [Victor Sanh, et al.] 知識の蒸留によりサイズを削減したDistilBERTを提案 BERT DistilBERT Teacher

    Student Probabilities One-hot This is an [MASK] which I bought at a supermarket DistilBERTのアーキテクチャ - Transformerのレイヤー数を半減 - ⼊⼒情報も⼀部削除 損失②Masked LM loss 事前学習時の損失 52 ① ③ 損失①Distillation loss ⼀般的な蒸留の際の損失 損失③Cosine loss BERTとDistilBERTの 隠れ状態をアラインメント Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. Workshop
  43. BERTのパラメータ数を40%削減 GLUEにおいて推論を60%⾼速化しつつ精度の97%を保持 à GLUEの複数のダウンストリームタスクにおいて良い性能を⽰す [1] Tang, Raphael, et al. "Distilling

    task-specific knowledge from BERT into simple neural networks." arXiv preprint arXiv:1903.12136 (2019). 1. 汎⽤的な⾔語表現モデルのための蒸留 先にBERTを蒸留してから様々なタスクに適⽤ (↔ タスク特化型の蒸留:各タスクごとにfine-tuningしたBERTを蒸留[1] ) 2. Triple lossの利⽤ 従来研究の損失にCosine Lossを加え,三つの損失を組み合わせた. 3. 初期パラメータは事前学習したBERTで初期化 このパラメータの初期化⽅法が結果に⼤きく寄与 DistilBERTの特徴 53 HuggingfaceのTransformersでコード公開中 https://github.com/huggingface/transformers Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. COVID-19仕様 蒸留による⾼速化 DistilBERT [Victor Sanh, et al.] Workshop
  44. NeurIPS2019におけるTransformer Transformer ⽅向性② 事前学習モデルの ベースとして⽤いる BERT ⽅向性① タスクに特化した アーキテクチャの導⼊ 新しいモデル

    の提案 54 モデルサイズ の問題 関連事項 分散表現に関する 諸問題 Transformerに関する ホットなトピック
  45. 分散表現の⾼品質な次元圧縮に向けて 評価指標Eigenspace overlap scoreの提案 ⼤きな記憶容量が必要 単語の意味の扱い ⾔語のバイアス Avner May et

    al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 56 有効なアプローチの⼀つである分散表現の圧縮 新しい評価指標としてEigenspace overlap score(EOS)を提案 論⽂内でEOSに関して以下の三つを⽰した - 理論的にダウンストリームタスクでの性能と直接関係する - 経験的にダウンストリームタスクでの性能と強い相関を持つ - 学習しなくても良い精度を⽰す圧縮された分散表現を識別可能 圧縮された分散表現の質を測るための既存の指標では, ダウンストリームタスクにおけるパフォーマンスとの 相関が弱い.つまり適切に評価できていない 結局どの圧縮⼿法が良いのか 実際に学習してみないとわからない From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019)
  46. 分散表現の⾼品質な次元圧縮に向けて 評価指標Eigenspace overlap scoreの提案 分散 表現 分散表現を特異値 分解したもの ラベル ベクトル

    予測 分散表現の 左特異ベクトル 分散表現の左特異ベクトルが予測結果を決定(論⽂中で数学的議論がされている) 57 圧縮前・後の分散表現の 左特異ベクトルの類似度を測る ことでダウンストリームタスク での性能と直接的に関連づける Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019) From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019) Eigenspace overlap score(EOS)の直感的なアイデア 注⽬したポイント
  47. さらに,EOSでシンプルな圧縮⼿法である⼀様量⼦化の性能の良さを 説明できることや,圧縮次元の選択指標としても有効であることを⽰した 分散表現の⾼品質な次元圧縮に向けて 評価指標Eigenspace overlap scoreの提案 58 相関 弱 相関

    強 EOSは,既存の評価指標に⽐べてダウンストリームタスクの 性能との相関が強い評価指標であることを確認 提案指標 既存指標 PIP loss, Spectral approximation error(∆, ∆$%& ) Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019, Figure 14(2019) 各圧縮の質の評価値とダウンストリームタスク(⾃然⾔語推論 MNLI)での性能
  48. 予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] ⼤きな記憶容量が必要 単語の意味の扱い 上記の⽅法は以下の⼆つの仮定の元成り⽴っている 仮定①各単語は⼀つのベクトルに対応 仮定②⽂脈ベクトルは望ましい単語の分散表現と近い

    機械翻訳などのモデルで予測層として⽤いられるSoftmaxレイヤ Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019. 59 最終出⼒ 埋め込み⾏列 Lしかし実応⽤上はそうとも限らない This is an これはりんごです ⼊⼒情報 既に出⼒した系列 ⽂脈ベクトルℎ1 Apple Car Example Pear ⼀番近い! 内積計算による分散表現の マッチングにより出⼒を決定 Orange 「これはりんごです è This is an 」 の翻訳過程の例 ? ⾔語のバイアス
  49. 主成分分析を⽤いてプロットした ⽂脈ベクトルℎ(各点)と単語ベク トル( ).BERTで学習したもの 予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] これらの事象をSoftmaxレイヤで扱えるようにした

    新しいアプローチ KerBS(Kernelized Bayesian softmax)を提案 外れ値 60 (1)単語の多義性 (左図) (2)外れ値 (左図) (3)異なる分散 (右図) 「監視する(動詞)」と「モニター(名詞)」 ⼆⼤クラスタがあるが単語ベクトル☆は⼀点 Christian science monitorという新聞紙名 単語ベクトル☆が引っ張られてしまう CarとVehicleは異なる分散を持つにも 関わらず単語ベクトル☆はほぼ同じに シンプルなSoftmaxでは扱えない三つの事象 From "Kernelized Bayesian Softmax for Text Generation.”, Ning Miao, et al., NeurIPS2019.,Figure 1(b,c) (2019) Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.
  50. アイデア① 意味の分散表現の確率を⾜し合わせて 単語の分散表現の確率を求める アイデア② マッチング時の内積計算を,単語ごとの異なる 分散をモデル化したカーネル関数に置換. 外れ値にも頑健に アイデア③Dynamic sense allocation

    各単語の語義数はわからないため,合計語義数の みを⼊⼒し,それぞれの単語に割り当て KerBSが⽣成タスクの精度を ブーストさせられることを⽰した (例) TransformerにKerBSを組み込み, 機械翻訳タスクにおける性能(BLEU-4) が1.29向上 BLEU-n:正解データとのn-gramマッチ率 予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] 61 Word embeddings Sense embeddings From "Kernelized Bayesian Softmax for Text Generation.”, Ning Miao, et al., NeurIPS2019, poster Figure 2(左上), Figure 2(右上), Figure 3(左下) (2019) Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.
  51. Concepts Word Embedding Association Tests (WEATs) [1] [1] Aylin Caliskan

    et al. “Semantics derived automatically from language corpora contain human-like biases.” Science. 356. 183-186. Word Embedding Association Testsを⽤いてバイアスの強さを検証 ⾔語におけるバイアスの問題 Yi Chern Tan, and L. Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019. 63 男性名: Paul ⼥性名:Emily Attributes ⼥性が多い職業:Nurse 男性が多い職業:Doctor 関連 弱 関連 弱 ConceptsとAttributesの組み合わせを 逆にしたときにその単語の関連度の 差を表すエフェクトサイズが ⼤きいほどバイアスが顕著である 関連 強 本研究の貢献 ①WEATsを⽂脈を考慮した単語表現にも適⽤できるように拡張 - 既存のテストでは⽂表現のみを⽤いていたが,今回は単語表現も追加 ②既存のConcept-attributesリストを活⽤し,テストに新しいAttributesを導⼊ ③事前学習に⽤いられるコーパスにおけるバイアスも分析 - 男性代名詞(heなど)が⼥性代名詞(sheなど)に⽐べて⼀貫して出現回数が多い - ニュートラルな代名詞(theyなど)ですら男性の多い職業名と⼀緒に使われることが多い
  52. 64 ⾔語におけるバイアスの問題 特にBERT-BASEは強い⼈種バイアス・交差バイアスを持つ 単語・⽂表現を両⽅⽤いることで,より多くのケースでバイアスを検出できる エフェクトサイズ(値が⼤きいほどバイアスが顕著) Yi Chern Tan, and L.

    Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019. 男性,⼥性 キャリア,家庭 ?? ヨーロッパ系 or アフリカ系 アメリカ⼈ 有能,無能 ?? 男性 or ⼥性 の ヨーロッパ系 or アフリカ系 アメリカ⼈ 感じが良い,悪い ?? ①ジェンダー ②⼈種 ③交差 ジェンダー + ⼈種 Concepts(例) Attributes (例) 以下の三つのバイアスをテスト From "Assessing social and intersectional biases in contextualized word representations.”, Yi Chern Tan, and L. Elisa Celis., NeurIPS2019, Table 2 (2019)