Trends in Natural Language Processing at NeurIPS 2019.

NeurIPS 2019における⾃然⾔語処理 Attentional Neural Network Modelsの進展 - TransformerとBERTを中⼼に - 東京⼯業⼤学
情報理⼯学院丹⽻彩奈

⾃⼰紹介丹⽻彩奈 (Ayana Niwa) •所属東京⼯業⼤学情報理⼯学院岡崎研究室博⼠課程⼀年
•興味のある分野⾃然⾔語処理 # 構⽂解析 # ⽂⽣成 # 感情分析 2 @ayana_nw1213

⾃然⾔語処理（NLP）とは深層学習の発展により近年急激な成⻑を遂げており，引き続き⾃然⾔語処理市場も拡⼤していく⾒通し https://www.statista.com/statistics/607891/worldwide-natural-language-processing-market-revenues/ ⼈間が使う⾔語「⾃然⾔語」をコンピュータで処理させる⼀連の技術 NLP entered the decade of
gold. （Ming Zhouさん from MSRA） https://easyai.tech/en/blog/nlp-trend-microsoft/ 2017〜2025年の世界の⾃然⾔語処理市場の収益推移と予測 3

NeurIPSにおけるNLP 4 ⾃然⾔語処理に関する発表件数がここ数年で倍増 20 17 44 48 0 10 20
30 40 50 60 2016 2017 2018 2019 ⾃然⾔語処理に関する発表件数 NeurIPS2019では模倣学習の⾔語処理応⽤への適⽤に関するチュートリアルも開催 - Imitation Learning and its Application to Natural Language Generation ⾃然⾔語処理と深層学習はもはや切っても切れない関係にあり, NeurIPSにおいても今後より多くの研究発表が期待される⾃然⾔語処理に関する発表のカテゴリ(※)と各件数 (※)著者が投稿時に指定したもの

今回注⽬する論⽂教育現場でもよく使われる Speech and Language Processing (SLP) 3rd Edition にも掲載予定
https://web.stanford.edu/~jurafsky/slp3/ Transformerがこの2年でどのような変化を遂げたのか，またどのような問題を残しているのかを NeurIPS2019の発表に沿って⾒ていく本発表の趣旨そのアーキテクチャや性能の⾼さ（後述）から注⽬を浴びた被引⽤数6,915件（2020/04/12時点） Attention Is All You Need（NIPS2017） RNN や CNN を使わずにAttentionのみを使⽤した画期的なニューラル機械翻訳モデルTransformerの提案 5 ここ２ヶ⽉でも約900件引⽤数が増加

Transformerが出てきた背景 RNNs (Recurrent Neural Networks) J前のトークンを踏まえた学習が可能 CNN (Convolutional Neural Network)
J並列化が可能 J各単語の付近の情報を捉えられるイメージ図 L逐次計算により並列化が難しい Lデータの階層性を捉えづらい L⻑距離の依存関係を捉えづらい Lフィルタ幅以内の依存関係しか捉えられない L⼤局的な位置情報が失われる Pros Cons Hierarchical architectures 6 イメージ図 Sequential architectures 単語の意味ベクトルを合成し，句や⽂の意味ベクトルをつくる際の⼆⼤⼿法 ※意味ベクトル • • • 分散表現や埋め込み表現（英語だとWord embedding/representation）とも⾔う． This is an apple フィルタ幅 3 フィルタ幅 4

Transformerが出てきた背景 RNNs (Recurrent Neural Networks) J前のトークンを踏まえた学習が可能 CNN (Convolutional Neural Network)
J並列化が可能 J各単語の付近の情報を捉えられるイメージ図 L逐次計算により並列化が難しい Lデータの階層性を捉えづらい L⻑距離の依存関係を捉えづらい Lフィルタ幅以内の依存関係しか捉えられない L⼤局的な位置情報が失われる Pros Cons Hierarchical architectures フィルタ幅 3 7 イメージ図 Sequential architectures 単語の意味ベクトルを合成し，句や⽂の意味ベクトルをつくる際の⼆⼤⼿法 ※意味ベクトル • • • 分散表現や埋め込み表現（英語だとWord embedding/representation）とも⾔う． This is an apple 回帰型ではなくても(CNNのPros)系列を扱える(RNNsのPros) ，並列化しやすい(CNNのPros)アーキテクチャが求められていたここで注⽬されたのがAttention mechanism フィルタ幅 4

Attention mechanism（事前知識）これはりんごです ℎ!"# ℎ!"$ ℎ!"% ℎ!"&
# $ % This is an & apple ⨁ ! " # $ 予測を⾏う際に，⼊⼒側の隠れベクトルℎ%&' を重み ' で加重平均をとったベクトル（⽂脈ベクトル）も⽤いる⽇（これはりんごです）à 英（This is an apple）の翻訳例 Attention mechanism Source-Target-Attention：デコード時に⼊⼒情報を参照 Self-attention：下の隠れ層の全ての位置（⾃分⾃⾝）を参照 à上記の例 à Transformerのキモ Attentionとは，⼀⾔で⾔うと系列中の重要な情報を取捨選択して利⽤する仕組み 8 重要度低重要度⾼

Transformerが出てきた背景 Self-Attentionをベースとした系列変換モデルを提案分散表現の合成(単語 à 句や⽂)にAttentionを使えないか？ ℎ!"# ℎ!"$ ℎ!"% ℎ!"&
ℎ!"# ℎ!"$ ℎ!"% ℎ!"& This is an apple This is an apple 9 これは，フィルタ幅を単語数にして，畳み込みなどの処理をAttentionに置き換えたCNNの発展系と考えることもできる CNNの例 Self-attentionレイヤ Feed-Forward Networkなど This is an apple Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

Transformerのアーキテクチャ Self-attentionのメリット 10 各⽂に対して⼀定回数の処理で済む J並列化しやすい JRNNsより⾼速な計算 J⻑距離の依存関係を学習しやすい Self-attentionは全ての
トークンを直接参照可能 ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ⼆つのトークンを結ぶ最⼤経路⻑が短いほど⻑距離の依存関係を学習しやすくなる 1 層あたりの計算複雑性が Self-attention < RNN (※) トークン数 , 次元数 (※)多くの場合トークン数 ≪ 次元数なので Self-attention < RNN ( $ ) < ( $ ) 典型値： = 50程度，は768,1024など Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

Transformerのアーキテクチャ Self-attentionのメリット 11 各⽂に対して⼀定回数の処理で済む J並列化しやすい JRNNsより⾼速な計算 J⻑距離の依存関係を学習しやすい Self-attentionは全ての
トークンを直接参照可能 ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ℎ!"# ℎ!"$ ℎ!"% ℎ!"& ⼆つのトークンを結ぶ最⼤経路⻑が短いほど⻑距離の依存関係を学習しやすくなる 1 層あたりの計算複雑性が Self-attention < RNN (※) Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017. トークン数 , 次元数 (※)多くの場合トークン数 ≪ 次元数なので Self-attention < RNN ( $ ) < ( $ ) 典型値： = 50程度，は768,1024など Self-attentionなら RNNsとCNNのPros/Consをうまく補い合える，

Transformerのアーキテクチャ Multi-head attention 複数のSelf-attentionレイヤを並列に配置する（Multi-head attention）ことで，複数の⾔語現象を学習 [1]Elena Voita, et al.,
"Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned.”, ACL 2019. 12 From “The Story of Heads”, Head Functions section, Elena Voita, https://lena-voita.github.io/posts/acl19_heads.html (2019) 低頻度語統語情報位置情報各headが捉えている⾔語現象例[1] （捉えている情報が解釈できないheadもある）⼀つのSelf-Attentionレイヤのみ(Single-head attention)を⽤いた場合 L各単語情報の重み付け和により情報を損失してしまう

Transformerのアーキテクチャ Self-attentionの弊害：語順を捉えられないL 出⼒情報が語順に依存しない関数で設計されているため Positional encodingの導⼊それぞれのトークンに対して，単語情報 + 位置情報をエンコード単語の位置：，次元数：相対位置を学習しやすくするため，異なる周波数の正弦波・余弦波を使⽤
2. 単語の分散表現などと加算し，それぞれエンコーダ・デコーダに⼊⼒ 1. 位置情報の分散表現を求めるそこで… 13 From "Attention is all you need”, Vaswani, Ashish, et al., NIPS2017, Figure 1

Transformerによる性能向上 (※) 構⽂⽊を出⼒するタスク．⼊出⼒⻑の差が⼤きく，かつ出⼒の⽂法制約が存在するため，系列変換タスクとしての難易度が⾼い．性能および汎⽤性に優れたモデルアーキテクチャであることを⽰した句構造解析タスク(※)でも，タスクに特化したアーキテクチャを導⼊せずに，RNN seq2seqモデルより⾼性能機械翻訳タスクでは… 既存⼿法に対して1/4未満の学習コスト(※)で最⾼性能を実現
14 (※)学習時に⾏った浮動⼩数点演算の回数を推定したもの．少ないほど良い Transformer This is an apple (S (NP This) (VP (V is) (NP (Det an) (N apple)))) Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

Transformer まとめ Self-attentionのみで句や⽂の分散表現を獲得 Multi-head self-attentionにより，複数の⾔語現象を並列に学習可能主流なアーキテクチャであるRNNsとCNNそれぞれの⻑所を継承計算量も削減 +並列処理可能 +
⻑距離の依存関係を考慮可能 + Positional encodingにより，各トークンの位置情報を保持性能・汎⽤性ともに優れたモデルアーキテクチャで注⽬を浴び，その後⽣成系のタスクのスタンダードになってきている機械翻訳および句構造解析タスクを⽤いた実験で良い性能 15 Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

(1) タスクに特化したアーキテクチャの導⼊ (2) ⻑⽂処理における計算負荷の軽減 (3) ⾃然⾔語が有する階層性の活⽤ (4) モデルアーキテクチャの最適化など… Transformerの改善の⽅向性
単語のまとまり句のまとまり⽂のまとまり⾔語の階層性イメージ図 From "Tree Transformer: Integrating Tree Structures into Self-Attention.”, Yau-Shian Wang et al., EMNLP2019, Figure 1(A) (2019) 16 ⼀⽅で，各タスクでの性能や，学習の効率化などの点で発展の余地はまだまだある

Transformerの改善の⽅向性 (1) タスクに特化したアーキテクチャの導⼊ (2) ⻑⽂処理における計算負荷の軽減 è Reformer（ハッシュ値を⽤いた類似度計算により計算負荷軽減）[1] (3) ⾃然⾔語が有する階層性の活⽤ è
Tree transformer（⽊構造を導出するように制約をかけて改善）[2] (4) モデルアーキテクチャの最適化 è Evolved transformer（NASを適⽤し，最適なアーキテクチャを探索）[3] など… (2)〜(4)のように，Transformer内部のアーキテクチャの改良も⾏われてきている 17 [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020. [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019. [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.

Transformerの改善の⽅向性 (1) タスクに特化したアーキテクチャの導⼊ (2) Multi-head導⼊による計算量が⼤きい (3) 計算量の問題により扱える系列⻑（単語数）に限界がある è Reformer（ハッシュ値を⽤いた類似度計算により計算負荷軽減）[1] (4)
⾔語の階層性を捉えられない è Tree transformer（⽊構造を導出するように制約をかけて改善）[2] (5) アーキテクチャが⼈⼿設計 è Evolved transformer（NASを適⽤し，最適なアーキテクチャを探索）[3] など… ↑ NeurIPS2019では(1)に関する発表が⾒られた ↑ 18 [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020. [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019. [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.

NeurIPS2019におけるTransformer Transformer ⼀般化モデルタスク特化型モデルアーキテクチャの変更横断型モデル BERT 学習時間問題 Context word
representation 問題点⽅向性① タスクに特化したアーキテクチャの導⼊近年では，機械翻訳, ⽂書要約[1] , 質問応答[2] などのモデルに組み込まれている NeurIPS2019の発表では機械翻訳をベンチマークに適⽤したものが⾒られた [1]Elozino Egonmwan, and Yllias Chali. "Transformer-based Model for Single Documents Neural Summarization." Proceedings of the 3rd Workshop on Neural Generation and Translation. 2019. [2]Taihua Shao, et al. "Transformer-based neural network for answer selection in question answering." IEEE Access 7 (2019): 26146-26156. Transformer ？？ 19

⼈間らしい⽂操作（⽣成 & 修正）を⽬指して Levenshtein Transformer[Jiatao Gu et al.] 翻訳時のデコードのプロセスを柔軟にするため，編集操作により⽂を⽣成トークンを回帰するのではなく，
⽂を繰り返し編集することにより，⽂の⽣成・修正を⾏う 20 主流な⽂⽣成⽅法：左から右に⼀単語ずつ予測 (Left-to-right) ⼈間は，単語を挿⼊したり削除したりしながら作⽂する（つまり編集操作） è このようなLeft-to-rightの⼀単語ずつ出⼒する⼿法はフレキシブルでない Transformer 編集操作(挿⼊および削除) Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.

⼈間らしい⽂操作（⽣成 & 修正）を⽬指して Levenshtein Transformer[Jiatao Gu et al.] どのトークンを削除するか？どの位置に挿⼊するか？
どのトークンを挿⼊するか？終了条件を満たすまで繰り返す挿⼊操作・削除操作を模倣学習により同時に学習 21 編集操作を組み込んだLevenshtein Transformer From "Levenshtein transformer.”, Jiatao Gu et al., NeurIPS2019, Figure 1(2019) Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.

後者の液体液体ヘリウムヘリウム２．２２．２T。後者の液体液体ヘリウムヘリウム２．２２．２T。後者のコイルは液体ヘリウム中で２．２Tで発⽣した。 Insertion Deletion Insertion Deletion --なし-- 最⼤５倍まで学習速度を向上させつつ Transformerと同等以上の精度
Levenshtein TransformerによるParallel decodingの場合 Greedy decodingの場合（主流な⼿法である⾃⼰回帰モデル）予測回数 2回予測予測⼈間らしい⽂操作（⽣成 & 修正）を⽬指して Levenshtein Transformer[Jiatao Gu et al.] 22 Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019. Memo ICML2019では挿⼊操作のみを⾏う Insertion Transformer[1]も発表され，編集操作を⽤いたParallel decodingへの関⼼の⾼まりを感じた． [1] Mitchell Stern et al., “Insertion Transformer: Flexible Sequence Generation via Insertion Operations”, ICML2019 予測回数 11回

ターゲットドメインの語彙情報を利⽤ソフトプロトタイプを組み込んだTransformer 23 Yiren Wang, et al. "Neural Machine Translation
with Soft Prototype." NeurIPS2019. （対応策）ターゲットドメインにある完全⽂をプロトタイプとして予測過程に組み込む本研究では，情報量が多く低分散なプロトタイプを効率的に⽣成するためのソフトプロトタイプを⽤いたフレームワークを提案ターゲットドメインの情報はその前ステップまでの単語しか⾒られない．不完全で部分的L This is an orange . プロトタイプ（例）組み込みニューラル機械翻訳における問題ターゲットドメインの単語周りの⼀貫性を学べる - （例）orangeにはanなんだ… しかし既存の⼿法では… プロトタイプに⼀⽂のみを⽤いている（ハードプロトタイプと⾔う）ため⾼分散で情報量に限界．さらにその⽣成に⾃⼰回帰モデルを要するので⾮効率的

24 Transformer ターゲットドメインの情報を参照する機構ターゲットドメインの語彙情報を利⽤ソフトプロトタイプを組み込んだTransformer ソース⽂ターゲット⽂これはりんごです This is
an apple はターゲットドメインの語彙情報を表すベクトル⾏列()の各⾏はソース⽂の各単語( をマッピングしたターゲットドメインの語彙分布(() J低分散でより多くの情報を含む． Jさらに⾮⾃⼰回帰で効率的パラメータ数や推論に要する時間をハードプロトタイプを⽤いた既存⼿法より抑えつつ，より良い予測精度を⽰したプロトタイプ () " : ターゲットドメインの埋め込み⾏列ハードプロトタイプならone-hotベクトル |' | (りんご) （Apple, Pearあたりが⾼い？) (これ) （ This, That, Itあたりが⾼い？） (は) （ Is, Are, Lookあたりが⾼い？） … これはです。 ! ：ターゲットドメインの語彙りんご Yiren Wang, et al. "Neural Machine Translation with Soft Prototype." NeurIPS2019.

NeurIPS2019におけるTransformer Transformer ⽅向性② 事前学習モデルのベースとして⽤いる⽅向性① タスクに特化したアーキテクチャの導⼊ 25 Transformerに関する
ホットなトピック

⾃然⾔語処理における事前学習とは Model training ⼤量のラベルなしデータから汎⽤的な⾔語知識を獲得するための学習近年，⾃然⾔語処理における有効性が多く報告されている 26 アプローチ① 素性抽出器 Step1 事前学習
Step2 転移学習特定タスクに適⽤分類系列ラベリング質問応答… ⼤量のラベル無しデータ少量のラベルありデータアプローチ② Fine-tuning 事前学習モデルのパラメータを固定⾃然⾔語を特徴量に変換事前学習モデルのパラメータを初期値として再学習

事前学習モデルのTimeline 近年，単語表現のみを学習するモデルから⽂脈を考慮した表現を学習するモデルに進化しつつある単語表現のみを事前学習（Word2Vec, GloVeなど） - １層⽬にあたる埋め込み層のみを事前学習⽂脈を考慮した表現を事前学習（ELMo, GPT, BERTなど）
- 埋め込み層以降も事前学習 27

⽂脈を考慮した表現（Context-aware representations） Context-free representations Context-aware representations 周りの⽂脈によって同じ単語でも違うベクトルが割り振られる⽂脈関係なく⼀つの単語に
⼀つのベクトルが割り振られる Context-aware representationを⽤いることで様々なタスクの性能が⼤きく向上することが知られる⾸を痛める会社を⾸になる⾸ベクトル⾸ベクトル⾸を痛める会社を⾸になる⾸ベクトル⾸ベクトル同じ異なる 28 ⽂脈を考慮しない表現(単語表現のみ)をContext-free representations，⽂脈を考慮する表現をContext-aware representationsとも呼ぶ

事前学習モデルのTimeline NeurIPSで発表された論⽂単語表現を事前学習 LSTMの初期パラメータを⾔語モデルで事前学習⽂脈を考慮した分散表現を獲得する事前学習モデルの先駆け？ NeurIPSでも，様々な事前学習モデルが提案されてきた
29

事前学習モデルのTimeline Manu Suryavansh(Apple) Transformerをベースとした事前学習モデル https://towardsdatascience.com/2019-year-of-bert-and-transformer-f200b53d05b9 30 今回はNeurIPS2019でも多く取り上げられたBERTに注⽬する

BERT Transformerのエンコーダを12/24層重ねた巨⼤モデル [CLS] the man went to [MASK] store .
[SEP] Left-to-right Right-to-left Bidirectional (BERT) 双⽅向の⽂脈を考慮可能 BERT 文内におけるトークン間の関係を学習文対の関係を学習事前学習タスク① Masked LM(MLM) 事前学習タスク② 隣接文予測(NSP) BERT 文内におけるトークン間の関係を学習文対の関係を学習事前学習タスク① Masked LM(MLM) 事前学習タスク② 隣接文予測(NSP) 31 Jacob Devlin et al., "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL2019.

BERTが与えたインパクト ★ ★ ★ ★ ★ ★ ★ ★ ★
GLUE Leaderboard SuperGLUE Leaderboard （NeurIPS2019） Human baseline ★ Transformerが使われているモデル ★ BERTが使われているモデル・GLUEのスコアが低い２タスク以外をより難易度の⾼いタスクに変更・タスクのフォーマットも多様化 - 共参照解析，質問応答が追加 2018年10⽉質問応答タスクSQuAD 1.1で⼈間超え当時⼤きな話題に最近は⾃然⾔語理解に関するベンチマークデータセットGLUEにおいて BERTを拡張したモデルが上位の多くを占めている https://gluebenchmark.com/ , https://super.gluebenchmark.com/ 32 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ⼈間のスコア Human baselineは12位まで後退（2020/04/13現在）

BERTが与えたインパクト去年10⽉にGoogleの検索エンジンに導⼊．同年12⽉に⽇本語対応へ 33 英語版では全クエリの約10%に検索結果の改善が⾒られた × ◦ 実社会において様々な⾯で使われているモデルのひとつ https://blog.google/products/search/search-language-understanding-bert/ From
Jacob Devlin et al., "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL2019.

BERTの改善の余地 34 [1] Yinhan Liu et al., "Roberta: A robustly
optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019). Masked LM(MLM) L[MASK]トークンの取り扱いに難あり（後述）特定タスクにおける性能低下 ex. 双⽅向性により⽂⽣成時の精度が良くないそもそも適切な事前学習タスクになっているのか？より横断的なタスクに応⽤したい隣接⽂予測 (NSP) L負例は別の⽂書から取得した⽂をペアにするため，各⽂書のトピックを判定できれば解けてしまう e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない精度にあまり寄与しないこともわかった [1] マルチモーダル，クロスリンガル（⾔語横断）

NeurIPS2019におけるTransformer Transformer ⽅向性② 事前学習モデルのベースとして⽤いる BERT ⽅向性① タスクに特化したアーキテクチャの導⼊新しいモデル
の提案 35 モデルサイズの問題 Transformerに関するホットなトピック分散表現に関する諸問題

BERTの改善の余地 36 Masked LM(MLM) L[MASK]トークンの取り扱いに難あり（後述）特定タスクにおける性能低下 ex. 双⽅向性により⽂⽣成時の精度が良くないそもそも適切な事前学習タスクになっているのか？より横断的なタスクに応⽤したい
マルチモーダル，クロスリンガル（⾔語横断）各タスクに特化したアーキテクチャの導⼊ UniLM（⽣成⾯の強化） ViLBERT（マルチモーダル） XLMs（クロスリンガル）事前学習タスクの変更 XLNet （NSPの廃⽌・ MLMの代替タスクを導⼊）隣接⽂予測 (NSP) L負例は別の⽂書から取得した⽂をペアにするため，各⽂書のトピックを判定できれば解けてしまう e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない精度にあまり寄与しないこともわかった [1] [1] Yinhan Liu et al., "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).

②⼊⼒情報のノイズ Fine-tuning時には [MASK]が存在しない Memo 本⽇紹介する研究の中で唯⼀のOral presentation XLNetが注⽬したBERTのMasked LMにおける問題点は以下の２点
Masked LMの精緻化 XLNet [Zhilin Yang et al.] 37 Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. [MASK] dog yard [MASK] ①単語間の独⽴性を仮定 [MASK]トークン間の依存関係を考慮できない I have a [MASK] . dog

à双⽅向の⽂脈を考慮できる⾃⼰回帰モデルPermutation LMを提案 Masked LMの精緻化 XLNet [Zhilin Yang et al.] 38
Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. 解決⽅法：⾃⼰回帰モデルに変更 J単語間の同時確率を考慮可能 J[MASK]トークン不要 (York|New) " # $ New York is a " ℎ! York ! (is|New, York) " # $ New York is a ℎ" is ! a New, York, is ) " # $ New York is a ℎ# ! # $ … … … しかし… L双⽅向の⽂脈を考慮できない（BERTの良さ） a 単⽅向(左)の⽂脈のみ

Masked LMの精緻化 XLNet [Zhilin Yang et al.] • Permutation LM
çXLNet ⼊⼒系列の順番はそのままで，トークンの予測順序を⼊れ替え（Permutation） 20タスクでBERTを超え，18タスクでSOTAを達成簡略化したイメージ図（実際はTwo-stream attentionなどのテクニックが組み込まれるのでもっと複雑） 39 全ての可能な予測順序を考慮することで双⽅向の⽂脈を組み込める Zhilin Yang, et al. “Xlnet: Generalized autoregressive pretraining for language understanding.” NeurIPS2019, slide p.7を参考に具体例で書き直したもの Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019. （⼊⼒系列）New, York, is, a, city （予測順序）4à2à1à3à0 (city, is, York, a, New) à J⾃⼰回帰モデルとBERTの良いところどりをしたモデル

複数の⾔語モデルを使い分け UniLM [Li Dong et al.] Li Dong, et al.
"Unified language model pre-training for natural language understanding and generation." NeurIPS 2019. 40 事前学習モデルには様々な⾔語モデリングタスクが⽤いられてきた⾔語理解タスクでは J精度を⼤きく向上⾔語⽣成タスクでは Lそうでもない⾔語理解・⾔語⽣成両⽅に適⽤可能な事前学習⾔語モデルを作りたい！三つの⾔語モデリングタスクを統合(Unify)したTransformerネットワークUniLMを提案これは昨⽇買ったりんごです。 MASK これは昨⽇買ったりんごです。 MASK これは昨⽇買ったりんごです。スーパーで 200 円で買えました。 MASK 双⽅向性 MASK 単⽅向⾔語モデル双⽅向⾔語モデル Seq2seq⾔語モデルソース側・ターゲット側を連結して⼊⼒ From "Unified language model pre-training for natural language understanding and generation.”, Li Dong, et al., NeurIPS2019,Table 1(2019)

複数の⾔語モデルを使い分け UniLM [Li Dong et al.] ⾔語理解タスク(GLUEなど)でBERTと同程度の精度を出しつつ．⽣成タスク(抽象要約など)でSOTA BERT ×
⾔語理解・⽣成の両⽴ = UniLM コアアイデア：Self-attention Mask(参照できるアテンションを制限できる)の位置を変更することで⼀つのモデルで三つの⾔語モデリングタスクを学習できる！ Transformerのパラメータは共有 Fine-tuning時にどの情報を使うかをmaskで変更（例）⾔語⽣成タスクなら Seq2seq⾔語モデルとしてUniLMを使う “は”から”りんご”にはアクセスできない．後ろのトークンは参照できない à 単⽅向になっている！ Left-to-rightの場合 41 Li Dong, et al. "Unified language model pre-training for natural language understanding and generation." NeurIPS 2019. From "Unified language model pre-training for natural language understanding and generation.”, Li Dong, et al., NeurIPS2019, Figure 1(2019)

画像と⾔語のjoint representationの獲得 ViLBERT [Jiasen Lu et al.] Jiasen Lu et
al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019 42 近年，画像×⾔語（マルチモーダル）に関する研究も盛んに⾏われている画像と⾔語の抽象度は異なる à 別々に処理したいがお互いの対応関係も学習したい⾔語画像 Co-attentional transformerレイヤ画像と⾔語を別々に処理するTwo-streamモデルに画像と⾔語を対応づける機構を組み込んだViLBERTを提案 From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, slides p.15, Figure 1

画像と⾔語のjoint representationの獲得 ViLBERT [Jiasen Lu et al.] Visual Question Answering（VQA）をはじめとする
四種類のvision-and-language taskで最⾼精度を達成 43 BERT × マルチモーダル = ViLBERT 事前学習タスク① Masked multi-modal learning 事前学習タスク② Multi-modal alignment prediction “Flowers”からAttentionが張られた画像 Jiasen Lu et al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019 From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, Figure 3, slide p.24

単⾔語コーパスとパラレルコーパスの活⽤ XLMs [Guillaume Lample and Alexis Conneau] Guillaume Lample and
Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019 44 単⾔語モデル英語 BERT Encoder 分類器英⽂多⾔語モデル ç こちらに注⽬！多⾔語 BERT Encoder 分類器英⽂仏⽂露⽂多⾔語⽂を同⼀埋め込み空間にエンコード BERTを拡張し，単⾔語コーパスのみを⽤いた教師なし・パラレルコーパスを⽤いた教師ありの⼆種類の多⾔語事前学習を⾏うXLMsを提案これはりんごです． This is an apple. パラレルコーパス単⾔語コーパス

事前学習タスク①多⾔語に対して⾔語ごとにMasked LM（単⾔語，教師なし）事前学習タスク②TLM(Translation Language Modeling)（多⾔語，教師あり）教師なし・あり機械翻訳， XNLIタスク(※)においてSOTA 特にMasked LMとTLMを組み合わせると精度をブーストできる à
パラレルコーパス活⽤の効果 45 BERT × 多⾔語表現の獲得 = XLMs ⾔語間の対応関係を学習 Multi-lingual BERTと⽐較しても良い結果！ (※) 教師あり: WMT’16 Romanian-English 教師なし: WMT’16 German-English XNLI：15⾔語の⽂分類の評価セット Guillaume Lample and Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019 From "Cross-lingual language model pretraining.”, Guillaume Lample, and Alexis Conneau., NeurIPS2019, Figure 1(2019) 単⾔語コーパスとパラレルコーパスの活⽤ XLMs [Guillaume Lample and Alexis Conneau]

（おまけ）事前学習モデルの概観 46 From "Pre-trained Models for Natural Language Processing: A
Survey.”, Xipeng Qiu, et al., arXiv preprint arXiv:2003.08271, Figure 3 (2020). ⽂の順序隣接⽂か否かトークンが置換されているか否か画像だけではなく動画・⾳声とも横断して学習 Masked LMやNSPの代替タスクもいくつか発表されている XLMsと同じ筆頭著者による研究(ACL2020)．より⼤規模なデータ・多くの⾔語で学習今回紹介した論⽂のカテゴリドメインや⾔語特化のモデルも増えてきたドメイン特化⾔語特化タスクのタイプモデルの拡張

の提案 47 モデルサイズの問題分散表現に関する諸問題 Transformerに関するホットなトピック事前学習モデル全体に⾔える問題. NeurIPS2019ではBERTのサイズ削減に取り組んだ研究が⾒られた

モデルサイズの近年の傾向事前学習モデルのパラメータ数は年々増加 Tuning-NLG 現時点で最⼤のパラメータ数である170億学習の⾼速化のため，オプティマイザ ZeRO（NeurIPS2019発表）を使⽤パラメ
$ タ数 BERT 48 ⼤きいモデルほど良い結果を⽰す，という近年のトレンドにより https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/に追加エネルギー効率がよく最⼩限のコストで学習・推論が⾏えるモデルが求められる

計算量削減へのアプローチ ①学習時間の削減 ②推論時間の削減学習・推論の両⽅に適⽤可能 Ouroboros（モデル並列化）[1] Q8BERT（量⼦化）[2] Tensorized Transformer(モデル圧縮) [3] DistilBERT（蒸留）[4]
[1]Qian Yang, et al. "Ouroboros: On Accelerating Training of Transformer-Based Language Models.”, NeurIPS2019. [2]Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019. [3]Xindian Ma, et al. "A tensorized transformer for language modeling.", NeurIPS2019. [4]Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. 並列化・量⼦化推論のみに適⽤可能圧縮・蒸留今回はこの中からQ8BERTとDistilBERTを紹介 49

量⼦化によるメモリ使⽤量の削減 Q8BERT [Ofir Zafrir et al.] à BERTを8bitに量⼦化したQ8BERTを提案モデルの重みの99%以上を占めるEmbedding/Fully connected
layerを8bitに量⼦化⾼精度が必要なオペレーション(Softmax, Layer Normalization, GELU)は32bitのまま実稼働環境で⼤きな事前学習済みモデルを使う際にもメモリなどのリソースの問題が⽣じる具体的には… BERTのFine-tuning時にQuantization-aware training(QAT)を⾏う Quantization-aware training：推論時に量⼦化することを前提に学習すること ↔ Post training quantization : 推論時に量⼦化することベースにJacob[1]らのフレームワークを採⽤（次スライド） 50 Workshop Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019.

8bitへの量⼦化により，32bitのBERTの精度を99%保持しつつメモリ使⽤量を４倍⼩さくできる．Post training quantizationよりも良い結果 Fine-tuning時推論時量⼦化して推論 51 http://nlp_architect.nervanasys.com/quantized_bert.html Ofir
Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019. From "Q8bert: Quantized 8bit bert.", Ofir Zafrir, et al., NeurIPS2019. poster(2019) Fake Quantizationを導⼊(Jacobら提案) Forward時にはFloatのパラメータを量⼦化した際の値， Back propagation時には量⼦化前の値を⽤いる NLP Architectにてコードも公開中量⼦化によるメモリ使⽤量の削減 Q8BERT [Ofir Zafrir et al.] Workshop

蒸留による⾼速化 DistilBERT [Victor Sanh, et al.] 知識の蒸留によりサイズを削減したDistilBERTを提案 BERT DistilBERT Teacher
Student Probabilities One-hot This is an [MASK] which I bought at a supermarket DistilBERTのアーキテクチャ - Transformerのレイヤー数を半減 - ⼊⼒情報も⼀部削除損失②Masked LM loss 事前学習時の損失 52 ① ③ 損失①Distillation loss ⼀般的な蒸留の際の損失損失③Cosine loss BERTとDistilBERTの隠れ状態をアラインメント Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. Workshop

BERTのパラメータ数を40%削減 GLUEにおいて推論を60%⾼速化しつつ精度の97%を保持 à GLUEの複数のダウンストリームタスクにおいて良い性能を⽰す [1] Tang, Raphael, et al. "Distilling
task-specific knowledge from BERT into simple neural networks." arXiv preprint arXiv:1903.12136 (2019). 1. 汎⽤的な⾔語表現モデルのための蒸留先にBERTを蒸留してから様々なタスクに適⽤（↔ タスク特化型の蒸留：各タスクごとにfine-tuningしたBERTを蒸留[1] ） 2. Triple lossの利⽤従来研究の損失にCosine Lossを加え，三つの損失を組み合わせた． 3. 初期パラメータは事前学習したBERTで初期化このパラメータの初期化⽅法が結果に⼤きく寄与 DistilBERTの特徴 53 HuggingfaceのTransformersでコード公開中 https://github.com/huggingface/transformers Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019. COVID-19仕様蒸留による⾼速化 DistilBERT [Victor Sanh, et al.] Workshop

の提案 54 モデルサイズの問題関連事項分散表現に関する諸問題 Transformerに関するホットなトピック

分散表現に関する諸問題⼤きな記憶容量が必要単語の意味の扱い⾔語に現れるバイアス分散表現には，例えば以下のような問題点があるそれぞれの問題に対し，BERTで得られたContext-aware representationsを⽤いて検証を⾏なった研究が⾒られた． - 既存の⼿法をContext-aware representationsで使えるように拡張したもの
- 複数の⼿法で学習したContext-aware representationsの⽐較実験を⾏ったもの 55 ※Context-aware representations固有の問題に取り組んでいるものではないが関連研究として紹介

分散表現の⾼品質な次元圧縮に向けて評価指標Eigenspace overlap scoreの提案⼤きな記憶容量が必要単語の意味の扱い⾔語のバイアス Avner May et
al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 56 有効なアプローチの⼀つである分散表現の圧縮新しい評価指標としてEigenspace overlap score(EOS)を提案論⽂内でEOSに関して以下の三つを⽰した - 理論的にダウンストリームタスクでの性能と直接関係する - 経験的にダウンストリームタスクでの性能と強い相関を持つ - 学習しなくても良い精度を⽰す圧縮された分散表現を識別可能圧縮された分散表現の質を測るための既存の指標では，ダウンストリームタスクにおけるパフォーマンスとの相関が弱い．つまり適切に評価できていない結局どの圧縮⼿法が良いのか実際に学習してみないとわからない From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019)

分散表現の⾼品質な次元圧縮に向けて評価指標Eigenspace overlap scoreの提案分散表現分散表現を特異値分解したものラベルベクトル
予測分散表現の左特異ベクトル分散表現の左特異ベクトルが予測結果を決定（論⽂中で数学的議論がされている） 57 圧縮前・後の分散表現の左特異ベクトルの類似度を測ることでダウンストリームタスクでの性能と直接的に関連づける Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019) From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019) Eigenspace overlap score(EOS)の直感的なアイデア注⽬したポイント

さらに，EOSでシンプルな圧縮⼿法である⼀様量⼦化の性能の良さを説明できることや，圧縮次元の選択指標としても有効であることを⽰した分散表現の⾼品質な次元圧縮に向けて評価指標Eigenspace overlap scoreの提案 58 相関弱相関
強 EOSは，既存の評価指標に⽐べてダウンストリームタスクの性能との相関が強い評価指標であることを確認提案指標既存指標 PIP loss, Spectral approximation error(∆, ∆$%& ) Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019 From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019, Figure 14(2019) 各圧縮の質の評価値とダウンストリームタスク（⾃然⾔語推論 MNLI）での性能

予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] ⼤きな記憶容量が必要単語の意味の扱い上記の⽅法は以下の⼆つの仮定の元成り⽴っている仮定①各単語は⼀つのベクトルに対応仮定②⽂脈ベクトルは望ましい単語の分散表現と近い
機械翻訳などのモデルで予測層として⽤いられるSoftmaxレイヤ Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019. 59 最終出⼒埋め込み⾏列 Lしかし実応⽤上はそうとも限らない This is an これはりんごです⼊⼒情報既に出⼒した系列⽂脈ベクトルℎ1 Apple Car Example Pear ⼀番近い！内積計算による分散表現のマッチングにより出⼒を決定 Orange 「これはりんごです è This is an 」の翻訳過程の例？⾔語のバイアス

主成分分析を⽤いてプロットした⽂脈ベクトルℎ(各点)と単語ベクトル( )．BERTで学習したもの予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] これらの事象をSoftmaxレイヤで扱えるようにした
新しいアプローチ KerBS(Kernelized Bayesian softmax)を提案外れ値 60 (1)単語の多義性 (左図) (2)外れ値 (左図) (3)異なる分散 (右図) 「監視する（動詞）」と「モニター（名詞）」⼆⼤クラスタがあるが単語ベクトル☆は⼀点 Christian science monitorという新聞紙名単語ベクトル☆が引っ張られてしまう CarとVehicleは異なる分散を持つにも関わらず単語ベクトル☆はほぼ同じにシンプルなSoftmaxでは扱えない三つの事象 From "Kernelized Bayesian Softmax for Text Generation.”, Ning Miao, et al., NeurIPS2019.,Figure 1(b,c) (2019) Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.

アイデア① 意味の分散表現の確率を⾜し合わせて単語の分散表現の確率を求めるアイデア② マッチング時の内積計算を，単語ごとの異なる分散をモデル化したカーネル関数に置換．外れ値にも頑健にアイデア③Dynamic sense allocation
各単語の語義数はわからないため，合計語義数のみを⼊⼒し，それぞれの単語に割り当て KerBSが⽣成タスクの精度をブーストさせられることを⽰した (例) TransformerにKerBSを組み込み，機械翻訳タスクにおける性能(BLEU-4）が1.29向上 BLEU-n：正解データとのn-gramマッチ率予測層の表現⼒を⾼めるために KerBS[Ning Miao et al.] 61 Word embeddings Sense embeddings From "Kernelized Bayesian Softmax for Text Generation.”, Ning Miao, et al., NeurIPS2019, poster Figure 2(左上), Figure 2(右上), Figure 3(左下) (2019) Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.

⾔語におけるバイアスの問題 DiversityはNeurIPSで重視されているテーマでもある⾔語におけるジェンダーや⼈種のバイアスが近年問題に Angry black woman ⿊⼈⼥性は怒っている（？）職業のステレオタイプ⼈種のステレオタイプ⼤きな記憶容量が必要
単語の意味の扱い⾔語のバイアス 62 ⽂脈を考慮した単語表現に現れる様々なバイアスを調査した研究を紹介医者 à 男性看護師 à ⼥性 From Inclusion in ML

Concepts Word Embedding Association Tests (WEATs) [1] [1] Aylin Caliskan
et al. “Semantics derived automatically from language corpora contain human-like biases.” Science. 356. 183-186. Word Embedding Association Testsを⽤いてバイアスの強さを検証⾔語におけるバイアスの問題 Yi Chern Tan, and L. Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019. 63 男性名： Paul ⼥性名：Emily Attributes ⼥性が多い職業：Nurse 男性が多い職業：Doctor 関連弱関連弱 ConceptsとAttributesの組み合わせを逆にしたときにその単語の関連度の差を表すエフェクトサイズが⼤きいほどバイアスが顕著である関連強本研究の貢献 ①WEATsを⽂脈を考慮した単語表現にも適⽤できるように拡張 - 既存のテストでは⽂表現のみを⽤いていたが，今回は単語表現も追加 ②既存のConcept-attributesリストを活⽤し，テストに新しいAttributesを導⼊ ③事前学習に⽤いられるコーパスにおけるバイアスも分析 - 男性代名詞(heなど)が⼥性代名詞(sheなど)に⽐べて⼀貫して出現回数が多い - ニュートラルな代名詞(theyなど)ですら男性の多い職業名と⼀緒に使われることが多い

64 ⾔語におけるバイアスの問題特にBERT-BASEは強い⼈種バイアス・交差バイアスを持つ単語・⽂表現を両⽅⽤いることで，より多くのケースでバイアスを検出できるエフェクトサイズ（値が⼤きいほどバイアスが顕著） Yi Chern Tan, and L.
Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019. 男性，⼥性キャリア，家庭？？ヨーロッパ系 or アフリカ系アメリカ⼈有能，無能？？男性 or ⼥性のヨーロッパ系 or アフリカ系アメリカ⼈感じが良い，悪い？？ ①ジェンダー ②⼈種 ③交差ジェンダー + ⼈種 Concepts（例） Attributes （例）以下の三つのバイアスをテスト From "Assessing social and intersectional biases in contextualized word representations.”, Yi Chern Tan, and L. Elisa Celis., NeurIPS2019, Table 2 (2019)

まとめ Transformerは事前学習モデルのベースとして⽤いられたり，各タスクに特化させたアーキテクチャのモジュールとして組み込まれたりと様々な形で⽤いられているタスク特化型Transformerでは，編集操作を可能にするLevenshtein Transformerによる柔軟な⽣成を⾏うモデルなどが提案された事前学習モデルでは，BERTの事前学習によるバイアスなどの⽋点を補うためにpermutation処理を組み込んだXLNetなどが提案され， BERTを超える⾼い性能を達成したまた，事前学習モデルはタスク特化型や⾔語・モーダルの横断型の
ように多⽅⾯への広がりを⾒せている．今後の動向に注⽬⼀⽅で，事前学習のモデルサイズが年々増加しているほか，単語表現に表出するジェンダー・⼈種などのバイアスの問題も残っている．実⽤性などを考慮するとそこをいかに克服するかが重要 65

謝辞 66 本資料の作成にあたり，指導教員である岡崎直観教授にご指導をいただきましたことに深く感謝を申し上げます．⼈⼯知能学会理事の堤富⼠雄博⼠には，資料のまとめ⽅に関して貴重な助⾔をいただきました．⼼より感謝申し上げます．また，所属研究室の⾼瀬翔助教，先輩である⽔⽊栄さんにも資料の内容や話のまとめ⽅について貴重なご意⾒をいただきました．厚く感謝申し上げます．

Trends in Natural Language Processing at NeurIP...

Trends in Natural Language Processing at NeurIPS 2019.

More Decks by Ayana Niwa

Other Decks in Research

Featured

Transcript