Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Trends in Natural Language Processing at NeurIPS 2019.

Ayana Niwa
April 30, 2020

Trends in Natural Language Processing at NeurIPS 2019.

Ayana Niwa

April 30, 2020
Tweet

More Decks by Ayana Niwa

Other Decks in Research

Transcript

  1. NeurIPS 2019における⾃然⾔語処理
    Attentional Neural Network Modelsの進展
    - TransformerとBERTを中⼼に -
    東京⼯業⼤学 情報理⼯学院 丹⽻彩奈

    View Slide

  2. ⾃⼰紹介
    丹⽻ 彩奈 (Ayana Niwa)
    ●所属
    東京⼯業⼤学 情報理⼯学院
    岡崎研究室 博⼠課程⼀年
    ●興味のある分野
    ⾃然⾔語処理
    # 構⽂解析 # ⽂⽣成 # 感情分析
    2
    @ayana_nw1213

    View Slide

  3. ⾃然⾔語処理(NLP)とは
    深層学習の発展により近年急激な成⻑を遂げており,
    引き続き⾃然⾔語処理市場も拡⼤していく⾒通し
    https://www.statista.com/statistics/607891/worldwide-natural-language-processing-market-revenues/
    ⼈間が使う⾔語「⾃然⾔語」をコンピュータで処理させる⼀連の技術
    NLP entered the decade of gold.
    (Ming Zhouさん from MSRA)
    https://easyai.tech/en/blog/nlp-trend-microsoft/
    2017〜2025年の世界の⾃然⾔語処理市場の収益推移と予測
    3

    View Slide

  4. NeurIPSにおけるNLP
    4
    ⾃然⾔語処理に関する発表件数がここ数年で倍増
    20
    17
    44
    48
    0
    10
    20
    30
    40
    50
    60
    2016 2017 2018 2019
    ⾃然⾔語処理に関する発表件数
    NeurIPS2019では模倣学習の⾔語処理応⽤への適⽤に関するチュートリアルも開催
    - Imitation Learning and its Application to Natural Language Generation
    ⾃然⾔語処理と深層学習はもはや切っても切れない関係にあり,
    NeurIPSにおいても今後より多くの研究発表が期待される
    ⾃然⾔語処理に関する発表のカテゴリ(※)と各件数
    (※)著者が投稿時に指定したもの

    View Slide

  5. 今回注⽬する論⽂
    教育現場でもよく使われる
    Speech and Language Processing (SLP) 3rd Edition にも掲載予定
    https://web.stanford.edu/~jurafsky/slp3/
    Transformerがこの2年でどのような変化を遂げたのか,
    またどのような問題を残しているのかを
    NeurIPS2019の発表に沿って⾒ていく
    本発表の趣旨
    そのアーキテクチャや性能の⾼さ(後述)から注⽬を浴びた
    被引⽤数6,915件(2020/04/12時点)
    Attention Is All You Need(NIPS2017)
    RNN や CNN を使わずにAttentionのみを使⽤した
    画期的なニューラル機械翻訳モデルTransformerの提案
    5
    ここ2ヶ⽉でも
    約900件引⽤数が増加

    View Slide

  6. Transformerが出てきた背景
    RNNs (Recurrent Neural Networks)
    J前のトークンを踏まえた学習が可能
    CNN (Convolutional Neural Network)
    J並列化が可能
    J各単語の付近の情報を捉えられる
    イメージ図
    L逐次計算により並列化が難しい
    Lデータの階層性を捉えづらい
    L⻑距離の依存関係を捉えづらい
    Lフィルタ幅以内の依存関係しか
    捉えられない
    L⼤局的な位置情報が失われる
    Pros
    Cons
    Hierarchical
    architectures
    6
    イメージ図
    Sequential
    architectures
    単語の意味ベクトルを合成し,句や⽂の意味ベクトルをつくる際の⼆⼤⼿法
    ※意味ベクトル • • • 分散表現や埋め込み表現(英語だとWord embedding/representation)とも⾔う.
    This is
    an apple
    フィルタ幅 3 フィルタ幅 4

    View Slide

  7. Transformerが出てきた背景
    RNNs (Recurrent Neural Networks)
    J前のトークンを踏まえた学習が可能
    CNN (Convolutional Neural Network)
    J並列化が可能
    J各単語の付近の情報を捉えられる
    イメージ図
    L逐次計算により並列化が難しい
    Lデータの階層性を捉えづらい
    L⻑距離の依存関係を捉えづらい
    Lフィルタ幅以内の依存関係しか
    捉えられない
    L⼤局的な位置情報が失われる
    Pros
    Cons
    Hierarchical
    architectures
    フィルタ幅 3
    7
    イメージ図
    Sequential
    architectures
    単語の意味ベクトルを合成し,句や⽂の意味ベクトルをつくる際の⼆⼤⼿法
    ※意味ベクトル • • • 分散表現や埋め込み表現(英語だとWord embedding/representation)とも⾔う.
    This is
    an apple
    回帰型ではなくても(CNNのPros)系列を扱える(RNNsのPros) ,
    並列化しやすい(CNNのPros)アーキテクチャが求められていた
    ここで注⽬されたのがAttention mechanism
    フィルタ幅 4

    View Slide

  8. Attention mechanism(事前知識)
    これ は りんご です
    ℎ!"# ℎ!"$ ℎ!"% ℎ!"&
    #
    $ %
    This is an
    &
    apple

    !
    "
    #
    $
    予測を⾏う際に,
    ⼊⼒側の隠れベクトルℎ%&'

    重み '
    で加重平均をとった
    ベクトル(⽂脈ベクトル)も⽤いる
    ⽇(これはりんごです)à 英(This is an apple)の翻訳例
    Attention
    mechanism
    Source-Target-Attention:デコード時に⼊⼒情報を参照
    Self-attention:下の隠れ層の全ての位置(⾃分⾃⾝)を参照
    à上記の例
    à Transformerのキモ
    Attentionとは,⼀⾔で⾔うと系列中の重要な情報を取捨選択して利⽤する仕組み
    8
    重要度低
    重要度⾼

    View Slide

  9. Transformerが出てきた背景
    Self-Attentionをベースとした
    系列変換モデルを提案
    分散表現の合成(単語 à 句や⽂)にAttentionを使えないか?
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    This is an apple
    This is an apple
    9
    これは,フィルタ幅を単語
    数にして,畳み込みなどの
    処理をAttentionに置き換え
    たCNNの発展系と考えるこ
    ともできる
    CNNの例
    Self-attentionレイヤ
    Feed-Forward Networkなど
    This is an apple
    Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

    View Slide

  10. Transformerのアーキテクチャ
    Self-attentionのメリット 10
    各⽂に対して⼀定回
    数の処理で済む
    J並列化しやすい
    JRNNsより⾼速な計算 J⻑距離の依存関係
    を学習しやすい
    Self-attentionは全ての
    トークンを直接参照可能
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    ⼆つのトークンを結ぶ
    最⼤経路⻑が短いほど
    ⻑距離の依存関係を学習
    しやすくなる
    1 層あたりの計算複雑性が
    Self-attention < RNN (※)
    トークン数 , 次元数
    (※)多くの場合
    トークン数 ≪ 次元数なので
    Self-attention < RNN
    ( $ ) < ( $ )
    典型値: = 50程度,は768,1024など
    Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

    View Slide

  11. Transformerのアーキテクチャ
    Self-attentionのメリット 11
    各⽂に対して⼀定回
    数の処理で済む
    J並列化しやすい
    JRNNsより⾼速な計算 J⻑距離の依存関係
    を学習しやすい
    Self-attentionは全ての
    トークンを直接参照可能
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    ℎ!"#
    ℎ!"$
    ℎ!"%
    ℎ!"&
    ⼆つのトークンを結ぶ
    最⼤経路⻑が短いほど
    ⻑距離の依存関係を学習
    しやすくなる
    1 層あたりの計算複雑性が
    Self-attention < RNN (※)
    Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.
    トークン数 , 次元数
    (※)多くの場合
    トークン数 ≪ 次元数なので
    Self-attention < RNN
    ( $ ) < ( $ )
    典型値: = 50程度,は768,1024など
    Self-attentionなら
    RNNsとCNNのPros/Consをうまく補い合える,

    View Slide

  12. Transformerのアーキテクチャ
    Multi-head attention
    複数のSelf-attentionレイヤを並列に配置する
    (Multi-head attention)ことで,複数の⾔語現象を学習
    [1]Elena Voita, et al., "Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned.”, ACL 2019.
    12
    From “The Story of Heads”, Head Functions section, Elena Voita, https://lena-voita.github.io/posts/acl19_heads.html (2019)
    低頻度語
    統語情報
    位置情報
    各headが捉えている⾔語現象例[1]
    (捉えている情報が解釈できないheadもある)
    ⼀つのSelf-Attentionレイヤのみ(Single-head attention)を⽤いた場合
    L各単語情報の重み付け和により情報を損失してしまう

    View Slide

  13. Transformerのアーキテクチャ
    Self-attentionの弊害:語順を捉えられないL
    出⼒情報が語順に依存しない関数で設計されているため
    Positional encodingの導⼊
    それぞれのトークンに対して,単語情報 + 位置情報をエンコード
    単語の位置:,次元数:
    相対位置を学習しやすくするため,異なる周波数の正弦波・余弦波を使⽤
    2. 単語の分散表現などと加算し,それぞれエンコーダ・デコーダに⼊⼒
    1. 位置情報の分散表現を求める
    そこで…
    13
    From "Attention is all you need”,
    Vaswani, Ashish, et al., NIPS2017, Figure 1

    View Slide

  14. Transformerによる性能向上
    (※) 構⽂⽊を出⼒するタスク.⼊出⼒⻑の差が⼤きく,かつ出⼒の⽂法制約
    が存在するため,系列変換タスクとしての難易度が⾼い.
    性能および汎⽤性に優れたモデルアーキテクチャであることを⽰した
    句構造解析タスク(※)でも,タスクに特化したアーキテクチャを
    導⼊せずに,RNN seq2seqモデルより⾼性能
    機械翻訳タスクでは…
    既存⼿法に対して1/4未満の学習コスト(※)で最⾼性能を実現
    14
    (※)学習時に⾏った浮動⼩数点演算の回数を推定したもの.少ないほど良い
    Transformer
    This is an apple
    (S
    (NP This)
    (VP
    (V is)
    (NP (Det an) (N apple))))
    Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

    View Slide

  15. Transformer まとめ
    Self-attentionのみで句や⽂の分散表現を獲得
    Multi-head self-attentionにより,
    複数の⾔語現象を並列に学習可能
    主流なアーキテクチャであるRNNsとCNNそれぞれの⻑所を継承
    計算量も削減 +並列処理可能 + ⻑距離の依存関係を考慮可能
    + Positional encodingにより,各トークンの位置情報を保持
    性能・汎⽤性ともに優れたモデルアーキテクチャで
    注⽬を浴び,その後⽣成系のタスクのスタンダードになってきている
    機械翻訳および句構造解析タスクを⽤いた実験で良い性能
    15
    Ashish Vaswani, et al., "Attention is all you need.”, NIPS2017.

    View Slide

  16. (1) タスクに特化したアーキテクチャの導⼊
    (2) ⻑⽂処理における計算負荷の軽減
    (3) ⾃然⾔語が有する階層性の活⽤
    (4) モデルアーキテクチャの最適化
    など…
    Transformerの改善の⽅向性
    単語の
    まとまり
    句の
    まとまり
    ⽂の
    まとまり
    ⾔語の階層性 イメージ図
    From "Tree Transformer: Integrating Tree Structures into Self-Attention.”,
    Yau-Shian Wang et al., EMNLP2019, Figure 1(A) (2019)
    16
    ⼀⽅で,各タスクでの性能や,
    学習の効率化などの点で発展の余地はまだまだある

    View Slide

  17. Transformerの改善の⽅向性
    (1) タスクに特化したアーキテクチャの導⼊
    (2) ⻑⽂処理における計算負荷の軽減
    è Reformer(ハッシュ値を⽤いた類似度計算により計算負荷軽減)[1]
    (3) ⾃然⾔語が有する階層性の活⽤
    è Tree transformer(⽊構造を導出するように制約をかけて改善)[2]
    (4) モデルアーキテクチャの最適化
    è Evolved transformer(NASを適⽤し,最適なアーキテクチャを探索)[3]
    など…
    (2)〜(4)のように,Transformer内部の
    アーキテクチャの改良も⾏われてきている
    17
    [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020.
    [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019.
    [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.

    View Slide

  18. Transformerの改善の⽅向性
    (1) タスクに特化したアーキテクチャの導⼊
    (2) Multi-head導⼊による計算量が⼤きい
    (3) 計算量の問題により扱える系列⻑(単語数)に限界がある
    è Reformer(ハッシュ値を⽤いた類似度計算により計算負荷軽減)[1]
    (4) ⾔語の階層性を捉えられない
    è Tree transformer(⽊構造を導出するように制約をかけて改善)[2]
    (5) アーキテクチャが⼈⼿設計
    è Evolved transformer(NASを適⽤し,最適なアーキテクチャを探索)[3]
    など…
    ↑ NeurIPS2019では(1)に関する発表が⾒られた ↑
    18
    [1]Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." ICLR2020.
    [2]Yau-Shian Wang, Hung-Yi Lee, and Yun-Nung Chen. "Tree Transformer: Integrating Tree Structures into Self-Attention.”, EMNLP2019.
    [3]David R. So, Chen Liang, and Quoc V. Le. "The evolved transformer." ICML2019.

    View Slide

  19. NeurIPS2019におけるTransformer
    Transformer
    ⼀般化モデル タスク特化型モデル
    アーキテクチャの変更
    横断型モデル
    BERT
    学習時間問題 Context word
    representation
    問題点
    ⽅向性①
    タスクに特化した
    アーキテクチャの導⼊
    近年では,機械翻訳, ⽂書要約[1]
    , 質問応答[2]
    などのモデルに組み込まれている
    NeurIPS2019の発表では機械翻訳をベンチマークに適⽤したものが⾒られた
    [1]Elozino Egonmwan, and Yllias Chali. "Transformer-based Model for Single Documents Neural Summarization." Proceedings of the 3rd Workshop
    on Neural Generation and Translation. 2019.
    [2]Taihua Shao, et al. "Transformer-based neural network for answer selection in question answering." IEEE Access 7 (2019): 26146-26156.
    Transformer ??
    19

    View Slide

  20. ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して
    Levenshtein Transformer[Jiatao Gu et al.]
    翻訳時のデコードのプロセスを柔軟にするため,編集操作により⽂を⽣成
    トークンを回帰するのではなく,
    ⽂を繰り返し編集することにより,
    ⽂の⽣成・修正を⾏う
    20
    主流な⽂⽣成⽅法:左から右に⼀単語ずつ予測 (Left-to-right)
    ⼈間は,単語を挿⼊したり削除したりしな
    がら作⽂する(つまり編集操作)
    è このようなLeft-to-rightの⼀単語ずつ出⼒
    する⼿法はフレキシブルでない
    Transformer 編集操作(挿⼊および削除)
    Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.

    View Slide

  21. ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して
    Levenshtein Transformer[Jiatao Gu et al.]
    どのトークンを削除するか?
    どの位置に挿⼊するか?
    どのトークンを挿⼊するか?
    終了条件を満たすまで
    繰り返す
    挿⼊操作・削除操作を模倣学習により同時に学習
    21
    編集操作を組み込んだLevenshtein Transformer
    From "Levenshtein transformer.”, Jiatao Gu et al., NeurIPS2019, Figure 1(2019)
    Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.

    View Slide

  22. 後者の液体液体ヘリウムヘリウム2.22.2T。
    後者の液体液体ヘリウムヘリウム2.22.2T。
    後者のコイルは液体ヘリウム中で2.2Tで発⽣した。
    Insertion
    Deletion
    Insertion
    Deletion --なし--
    最⼤5倍まで学習速度を向上させつつ
    Transformerと同等以上の精度
    Levenshtein TransformerによるParallel decodingの場合
    Greedy decodingの場合(主流な⼿法である⾃⼰回帰モデル)
    予測回数
    2回
    予測
    予測
    ⼈間らしい⽂操作(⽣成 & 修正)を⽬指して
    Levenshtein Transformer[Jiatao Gu et al.]
    22
    Jiatao Gu, Changhan Wang, and Junbo Zhao. "Levenshtein transformer." NeurIPS 2019.
    Memo
    ICML2019では挿⼊操作のみを⾏う
    Insertion Transformer[1]も発表され,
    編集操作を⽤いたParallel decodingへの
    関⼼の⾼まりを感じた.
    [1] Mitchell Stern et al., “Insertion Transformer: Flexible
    Sequence Generation via Insertion Operations”, ICML2019
    予測回数
    11回

    View Slide

  23. ターゲットドメインの語彙情報を利⽤
    ソフトプロトタイプを組み込んだTransformer
    23
    Yiren Wang, et al. "Neural Machine Translation with Soft Prototype." NeurIPS2019.
    (対応策)ターゲットドメインにある完全⽂を
    プロトタイプとして予測過程に組み込む
    本研究では,情報量が多く低分散なプロトタイプを効率的に⽣成
    するためのソフトプロトタイプを⽤いたフレームワークを提案
    ターゲットドメインの情報はその 前ステップ
    までの単語しか⾒られない.不完全で部分的L
    This is an orange .
    プロトタイプ(例)
    組み込み
    ニューラル機械翻訳における問題
    ターゲットドメインの単語周りの⼀貫性を学べる
    - (例)orangeにはanなんだ…
    しかし既存の⼿法では…
    プロトタイプに⼀⽂のみを⽤いている(ハードプロトタイプと⾔う)ため⾼分散で
    情報量に限界.さらにその⽣成に⾃⼰回帰モデルを要するので⾮効率的

    View Slide

  24. 24
    Transformer ターゲットドメインの情報を参照する機構
    ターゲットドメインの語彙情報を利⽤
    ソフトプロトタイプを組み込んだTransformer
    ソース⽂
    ターゲット⽂
    これはりんごです
    This is an apple
    はターゲットドメインの語彙情報を表すベクトル
    ⾏列()の各⾏はソース⽂の各単語(

    マッピングしたターゲットドメインの語彙分布(()
    J低分散でより多くの情報を含む.
    Jさらに⾮⾃⼰回帰で効率的
    パラメータ数や推論に要する時間をハードプロトタイプを⽤いた
    既存⼿法より抑えつつ,より良い予測精度を⽰した
    プロトタイプ



    ()
    "
    : ターゲットドメインの埋め込み⾏列
    ハードプロトタイプ
    ならone-hotベクトル
    |'
    |
    (りんご) (Apple, Pearあたりが⾼い?)
    (これ) ( This, That, Itあたりが⾼い?)
    (は) ( Is, Are, Lookあたりが⾼い?)

    これ

    です

    !
    :ターゲットドメインの語彙
    りんご
    Yiren Wang, et al. "Neural Machine Translation with Soft Prototype." NeurIPS2019.

    View Slide

  25. NeurIPS2019におけるTransformer
    Transformer
    ⽅向性②
    事前学習モデルの
    ベースとして⽤いる
    ⽅向性①
    タスクに特化した
    アーキテクチャの導⼊
    25
    Transformerに関する
    ホットなトピック

    View Slide

  26. ⾃然⾔語処理における事前学習とは
    Model
    training
    ⼤量のラベルなしデータから汎⽤的な⾔語知識を獲得するための学習
    近年,⾃然⾔語処理における有効性が多く報告されている
    26
    アプローチ①
    素性抽出器
    Step1
    事前学習
    Step2
    転移学習
    特定タスクに適⽤
    分類
    系列ラベリング
    質問応答…
    ⼤量の
    ラベル無し
    データ
    少量の
    ラベルあり
    データ
    アプローチ②
    Fine-tuning
    事前学習モデルの
    パラメータを固定
    ⾃然⾔語を特徴量に変換
    事前学習モデルの
    パラメータを初期値と
    して再学習

    View Slide

  27. 事前学習モデルのTimeline
    近年,単語表現のみを学習するモデルから
    ⽂脈を考慮した表現を学習するモデルに進化しつつある
    単語表現のみを事前学習(Word2Vec, GloVeなど)
    - 1層⽬にあたる埋め込み層のみを事前学習
    ⽂脈を考慮した表現を事前学習(ELMo, GPT, BERTなど)
    - 埋め込み層以降も事前学習
    27

    View Slide

  28. ⽂脈を考慮した表現
    (Context-aware representations)
    Context-free representations Context-aware representations
    周りの⽂脈によって同じ単語でも
    違うベクトルが割り振られる
    ⽂脈関係なく⼀つの単語に
    ⼀つのベクトルが割り振られる
    Context-aware representationを⽤いることで
    様々なタスクの性能が⼤きく向上することが知られる
    ⾸を痛める
    会社を⾸になる
    ⾸ベクトル
    ⾸ベクトル
    ⾸を痛める
    会社を⾸になる
    ⾸ベクトル
    ⾸ベクトル
    同じ 異なる
    28
    ⽂脈を考慮しない表現(単語表現のみ)をContext-free representations,
    ⽂脈を考慮する表現をContext-aware representationsとも呼ぶ

    View Slide

  29. 事前学習モデルのTimeline
    NeurIPSで
    発表された論⽂
    単語表現を
    事前学習
    LSTMの初期パラメータを
    ⾔語モデルで事前学習
    ⽂脈を考慮した分散表現を獲得する
    事前学習モデルの先駆け?
    NeurIPSでも,様々な事前学習モデルが提案されてきた
    29

    View Slide

  30. 事前学習モデルのTimeline
    Manu Suryavansh(Apple)
    Transformerをベースとした
    事前学習モデル
    https://towardsdatascience.com/2019-year-of-bert-and-transformer-f200b53d05b9
    30
    今回はNeurIPS2019でも多く取り上げられたBERTに注⽬する

    View Slide

  31. BERT
    Transformerのエンコーダを12/24層重ねた巨⼤モデル
    [CLS] the man went to [MASK] store . [SEP]
    Left-to-right Right-to-left
    Bidirectional (BERT)
    双⽅向の⽂脈を考慮可能
    BERT
    文内における
    トークン間の関係を学習 文対の関係を学習
    事前学習タスク①
    Masked LM(MLM)
    事前学習タスク②
    隣接文予測(NSP)
    BERT
    文内における
    トークン間の関係を学習 文対の関係を学習
    事前学習タスク①
    Masked LM(MLM)
    事前学習タスク②
    隣接文予測(NSP)
    31
    Jacob Devlin et al., "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL2019.

    View Slide

  32. BERTが与えたインパクト

    ★ ★
    ★ ★
    ★ ★
    ★ ★
    GLUE Leaderboard
    SuperGLUE Leaderboard
    (NeurIPS2019)
    Human
    baseline
    ★ Transformerが使われているモデル
    ★ BERTが使われているモデル
    ・GLUEのスコアが低い2タスク以外を
    より難易度の⾼いタスクに変更
    ・タスクのフォーマットも多様化
    - 共参照解析,質問応答が追加
    2018年10⽉質問応答タスクSQuAD 1.1で⼈間超え 当時⼤きな話題に
    最近は⾃然⾔語理解に関するベンチマークデータセットGLUEにおいて
    BERTを拡張したモデルが上位の多くを占めている
    https://gluebenchmark.com/ , https://super.gluebenchmark.com/
    32

    ★ ★
    ★ ★
    ★ ★

    ★ ★
    ★ ★
    ★ ★
    ★ ★

    ★ ★
    ⼈間の
    スコア
    Human baselineは12位まで後退(2020/04/13現在)

    View Slide

  33. BERTが与えたインパクト
    去年10⽉にGoogleの検索エンジンに導⼊.
    同年12⽉に⽇本語対応へ
    33
    英語版では全クエリの約10%に検索結果の改善が⾒られた
    × ○
    実社会において様々な⾯で使われているモデルのひとつ
    https://blog.google/products/search/search-language-understanding-bert/
    From
    Jacob Devlin et al., "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL2019.

    View Slide

  34. BERTの改善の余地
    34
    [1] Yinhan Liu et al., "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
    Masked LM(MLM)
    L[MASK]トークンの取り扱いに難あり(後述)
    特定タスクにおける性能低下
    ex. 双⽅向性により⽂⽣成時の精度が良くない
    そもそも適切な事前学習タスクになっているのか?
    より横断的なタスクに応⽤したい
    隣接⽂予測 (NSP)
    L負例は別の⽂書から取得した⽂をペアにするため,
    各⽂書のトピックを判定できれば解けてしまう
    e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない
    精度にあまり寄与しないこともわかった [1]
    マルチモーダル,クロスリンガル(⾔語横断)

    View Slide

  35. NeurIPS2019におけるTransformer
    Transformer
    ⽅向性②
    事前学習モデルの
    ベースとして⽤いる
    BERT
    ⽅向性①
    タスクに特化した
    アーキテクチャの導⼊
    新しいモデル
    の提案
    35
    モデルサイズ
    の問題
    Transformerに関する
    ホットなトピック
    分散表現に関する
    諸問題

    View Slide

  36. BERTの改善の余地
    36
    Masked LM(MLM)
    L[MASK]トークンの取り扱いに難あり(後述)
    特定タスクにおける性能低下
    ex. 双⽅向性により⽂⽣成時の精度が良くない
    そもそも適切な事前学習タスクになっているのか?
    より横断的なタスクに応⽤したい
    マルチモーダル,クロスリンガル(⾔語横断)
    各タスクに特化した
    アーキテクチャの導⼊
    UniLM(⽣成⾯の強化)
    ViLBERT(マルチモーダル)
    XLMs(クロスリンガル)
    事前学習
    タスクの変更
    XLNet
    (NSPの廃⽌・
    MLMの代替タスクを導⼊)
    隣接⽂予測 (NSP)
    L負例は別の⽂書から取得した⽂をペアにするため,
    各⽂書のトピックを判定できれば解けてしまう
    e.g. スポーツ記事の⽂とレシピ記事の⽂は隣接しない
    精度にあまり寄与しないこともわかった [1]
    [1] Yinhan Liu et al., "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).

    View Slide

  37. ②⼊⼒情報のノイズ
    Fine-tuning時には
    [MASK]が存在しない
    Memo
    本⽇紹介する研究の中で
    唯⼀のOral presentation
    XLNetが注⽬したBERTのMasked LMにおける
    問題点は以下の2点
    Masked LMの精緻化
    XLNet [Zhilin Yang et al.]
    37
    Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019.
    [MASK]
    dog yard
    [MASK]
    ①単語間の独⽴性を仮定
    [MASK]トークン間の
    依存関係を考慮できない
    I have a [MASK] .
    dog

    View Slide

  38. à双⽅向の⽂脈を考慮できる⾃⼰回帰モデルPermutation LMを提案
    Masked LMの精緻化
    XLNet [Zhilin Yang et al.]
    38
    Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019.
    解決⽅法:⾃⼰回帰モデルに変更
    J単語間の同時確率を考慮可能
    J[MASK]トークン不要
    (York|New)
    "
    #
    $
    New York is a
    "
    ℎ!
    York
    !
    (is|New, York)
    "
    #
    $
    New York is a
    ℎ"
    is
    !
    a New, York, is )
    "
    #
    $
    New York is a
    ℎ#
    !
    #
    $
    … … …
    しかし…
    L双⽅向の⽂脈を考慮できない(BERTの良さ)
    a 単⽅向(左)の
    ⽂脈のみ

    View Slide

  39. Masked LMの精緻化
    XLNet [Zhilin Yang et al.]
    ● Permutation LM çXLNet
    ⼊⼒系列の順番はそのままで,トークンの予測順序を⼊れ替え(Permutation)
    20タスクでBERTを超え,18タスクでSOTAを達成
    簡略化したイメージ図(実際はTwo-stream attentionなどのテクニックが組み込まれるのでもっと複雑)
    39
    全ての可能な予測順序を考慮することで双⽅向の⽂脈を組み込める
    Zhilin Yang, et al. “Xlnet: Generalized autoregressive pretraining for language understanding.” NeurIPS2019, slide p.7を参考に具体例で書き直したもの
    Zhilin Yang, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." NeurIPS2019.
    (⼊⼒系列)New, York, is, a, city (予測順序)4à2à1à3à0 (city, is, York, a, New)
    à J⾃⼰回帰モデルとBERTの良いところどりをしたモデル

    View Slide

  40. 複数の⾔語モデルを使い分け
    UniLM [Li Dong et al.]
    Li Dong, et al. "Unified language model pre-training for natural language understanding and generation." NeurIPS 2019.
    40
    事前学習モデルには様々な⾔語モデリングタスクが⽤いられてきた
    ⾔語理解タスクでは
    J精度を⼤きく向上
    ⾔語⽣成タスクでは
    Lそうでもない
    ⾔語理解・⾔語⽣成両⽅に適⽤可能な事前学習⾔語モデルを作りたい!
    三つの⾔語モデリングタスクを統合(Unify)したTransformerネットワークUniLMを提案
    これ は 昨⽇ 買った りんご です 。
    MASK
    これ は 昨⽇ 買った りんご です 。
    MASK
    これ は 昨⽇ 買った りんご です 。
    スーパー で 200 円 で 買え ました 。
    MASK
    双⽅向性
    MASK
    単⽅向⾔語モデル
    双⽅向⾔語モデル
    Seq2seq⾔語モデル
    ソース側・ターゲット側を連結して⼊⼒
    From "Unified language model pre-training for natural language understanding and generation.”, Li Dong, et al., NeurIPS2019,Table 1(2019)

    View Slide

  41. 複数の⾔語モデルを使い分け
    UniLM [Li Dong et al.]
    ⾔語理解タスク(GLUEなど)でBERTと同程度の精度を出しつつ.
    ⽣成タスク(抽象要約など)でSOTA
    BERT × ⾔語理解・⽣成の両⽴ = UniLM
    コアアイデア:Self-attention Mask(参照できるアテンションを制限できる)の位置を
    変更することで⼀つのモデルで 三つの⾔語モデリングタスクを学習できる!
    Transformerのパラメータは共有
    Fine-tuning時に
    どの情報を使うかをmaskで変更
    (例)⾔語⽣成タスクなら
    Seq2seq⾔語モデルとしてUniLMを使う
    “は”から”りんご”には
    アクセスできない.
    後ろのトークンは参照できない
    à 単⽅向になっている!
    Left-to-rightの場合
    41
    Li Dong, et al. "Unified language model pre-training for natural language understanding and generation." NeurIPS 2019.
    From "Unified language model pre-training for natural language
    understanding and generation.”, Li Dong, et al., NeurIPS2019, Figure 1(2019)

    View Slide

  42. 画像と⾔語のjoint representationの獲得
    ViLBERT [Jiasen Lu et al.]
    Jiasen Lu et al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019
    42
    近年, 画像×⾔語(マルチモーダル) に関する研究も盛んに⾏われている
    画像と⾔語の抽象度は異なる à 別々に処理したいがお互いの対応関係も学習したい
    ⾔語
    画像
    Co-attentional transformerレイヤ
    画像と⾔語を別々に処理するTwo-streamモデルに
    画像と⾔語を対応づける機構を組み込んだViLBERTを提案
    From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, slides p.15, Figure 1

    View Slide

  43. 画像と⾔語のjoint representationの獲得
    ViLBERT [Jiasen Lu et al.]
    Visual Question Answering(VQA)をはじめとする
    四種類のvision-and-language taskで最⾼精度を達成
    43
    BERT × マルチモーダル = ViLBERT
    事前学習タスク①
    Masked multi-modal learning
    事前学習タスク②
    Multi-modal alignment prediction
    “Flowers”からAttentionが張られた画像
    Jiasen Lu et al., “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, NeurIPS2019
    From “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”, Jiasen Lu et al., NeurIPS2019, Figure 3, slide p.24

    View Slide

  44. 単⾔語コーパスとパラレルコーパスの活⽤
    XLMs [Guillaume Lample and Alexis Conneau]
    Guillaume Lample and Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019
    44
    単⾔語モデル
    英語 BERT
    Encoder
    分類器
    英⽂

    多⾔語モデル ç こちらに注⽬!
    多⾔語
    BERT
    Encoder
    分類器
    英⽂


    仏⽂
    露⽂
    多⾔語⽂を同⼀埋め込み空間にエンコード
    BERTを拡張し,単⾔語コーパスのみを⽤いた教師なし・パラレルコー
    パスを⽤いた教師ありの⼆種類の多⾔語事前学習を⾏うXLMsを提案
    これはりんごです. This is an apple.
    パラレル
    コーパス
    単⾔語
    コーパス

    View Slide

  45. 事前学習タスク①多⾔語に対して⾔語ごとにMasked LM(単⾔語,教師なし)
    事前学習タスク②TLM(Translation Language Modeling)(多⾔語,教師あり)
    教師なし・あり機械翻訳, XNLIタスク(※)においてSOTA
    特にMasked LMとTLMを組み合わせると精度をブーストできる
    à パラレルコーパス活⽤の効果
    45
    BERT × 多⾔語表現の獲得 = XLMs
    ⾔語間の対応関係を学習
    Multi-lingual BERTと⽐較しても良い結果!
    (※)
    教師あり: WMT’16 Romanian-English
    教師なし: WMT’16 German-English
    XNLI:15⾔語の⽂分類の評価セット
    Guillaume Lample and Alexis Conneau. "Cross-lingual language model pretraining." NeurIPS2019
    From "Cross-lingual language model pretraining.”, Guillaume Lample, and Alexis Conneau., NeurIPS2019, Figure 1(2019)
    単⾔語コーパスとパラレルコーパスの活⽤
    XLMs [Guillaume Lample and Alexis Conneau]

    View Slide

  46. (おまけ)事前学習モデルの概観
    46
    From "Pre-trained Models for Natural Language Processing: A Survey.”, Xipeng Qiu, et al., arXiv preprint arXiv:2003.08271, Figure 3 (2020).
    ⽂の順序
    隣接⽂か否か
    トークンが置換されているか否か
    画像だけではなく動画・
    ⾳声とも横断して学習
    Masked LMやNSPの
    代替タスクもいくつか
    発表されている
    XLMsと同じ筆頭著者による研究(ACL2020).
    より⼤規模なデータ・多くの⾔語で学習
    今回紹介した
    論⽂のカテゴリ
    ドメインや⾔語特化の
    モデルも増えてきた
    ドメイン特化
    ⾔語特化
    タスクのタイプ
    モデルの拡張

    View Slide

  47. NeurIPS2019におけるTransformer
    Transformer
    ⽅向性②
    事前学習モデルの
    ベースとして⽤いる
    BERT
    ⽅向性①
    タスクに特化した
    アーキテクチャの導⼊
    新しいモデル
    の提案
    47
    モデルサイズ
    の問題
    分散表現に関する
    諸問題
    Transformerに関する
    ホットなトピック
    事前学習モデル全体に⾔える問
    題.
    NeurIPS2019ではBERTのサイズ
    削減に取り組んだ研究が⾒られた

    View Slide

  48. モデルサイズの近年の傾向
    事前学習モデルのパラメータ数は年々増加
    Tuning-NLG
    現時点で最⼤の
    パラメータ数である170億
    学習の⾼速化のため,オプティマイザ
    ZeRO(NeurIPS2019発表)を使⽤



    $


    BERT
    48
    ⼤きいモデルほど良い結果を⽰す,という近年のトレンドにより
    https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/に追加
    エネルギー効率がよく最⼩限のコストで学習・推論が⾏えるモデルが求められる

    View Slide

  49. 計算量削減へのアプローチ
    ①学習時間の削減 ②推論時間の削減
    学習・推論の両⽅に適⽤可能
    Ouroboros(モデル並列化)[1]
    Q8BERT(量⼦化)[2]
    Tensorized Transformer(モデル圧縮) [3]
    DistilBERT(蒸留)[4]
    [1]Qian Yang, et al. "Ouroboros: On Accelerating Training of Transformer-Based Language Models.”, NeurIPS2019.
    [2]Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019.
    [3]Xindian Ma, et al. "A tensorized transformer for language modeling.", NeurIPS2019.
    [4]Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019.
    並列化・量⼦化
    推論のみに適⽤可能
    圧縮・蒸留
    今回はこの中からQ8BERTとDistilBERTを紹介
    49

    View Slide

  50. 量⼦化によるメモリ使⽤量の削減
    Q8BERT [Ofir Zafrir et al.]
    à BERTを8bitに量⼦化したQ8BERTを提案
    モデルの重みの99%以上を占めるEmbedding/Fully connected layerを8bitに量⼦化
    ⾼精度が必要なオペレーション(Softmax, Layer Normalization, GELU)は32bitのまま
    実稼働環境で⼤きな事前学習済みモデルを使う際にも
    メモリなどのリソースの問題が⽣じる
    具体的には…
    BERTのFine-tuning時にQuantization-aware training(QAT)を⾏う
    Quantization-aware training: 推論時に量⼦化することを前提に学習すること
    ↔ Post training quantization : 推論時に量⼦化すること
    ベースにJacob[1]らのフレームワークを採⽤(次スライド)
    50
    Workshop
    Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019.

    View Slide

  51. 8bitへの量⼦化により,32bitのBERTの精度を99%保持しつつ
    メモリ使⽤量を4倍⼩さくできる.Post training quantizationよりも良い結果
    Fine-tuning時 推論時
    量⼦化して推論
    51
    http://nlp_architect.nervanasys.com/quantized_bert.html
    Ofir Zafrir, et al. "Q8bert: Quantized 8bit bert.", NeurIPS2019.
    From "Q8bert: Quantized 8bit bert.", Ofir Zafrir, et al., NeurIPS2019. poster(2019)
    Fake Quantizationを導⼊(Jacobら提案)
    Forward時にはFloatのパラメータを量⼦化した際の値,
    Back propagation時には量⼦化前の値を⽤いる
    NLP Architectにてコードも公開中
    量⼦化によるメモリ使⽤量の削減
    Q8BERT [Ofir Zafrir et al.]
    Workshop

    View Slide

  52. 蒸留による⾼速化
    DistilBERT [Victor Sanh, et al.]
    知識の蒸留によりサイズを削減したDistilBERTを提案
    BERT
    DistilBERT
    Teacher
    Student
    Probabilities One-hot
    This is
    an [MASK]
    which I bought
    at a supermarket
    DistilBERTのアーキテクチャ
    - Transformerのレイヤー数を半減
    - ⼊⼒情報も⼀部削除
    損失②Masked LM loss
    事前学習時の損失
    52

    ③ 損失①Distillation loss
    ⼀般的な蒸留の際の損失
    損失③Cosine loss
    BERTとDistilBERTの
    隠れ状態をアラインメント
    Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019.
    Workshop

    View Slide

  53. BERTのパラメータ数を40%削減
    GLUEにおいて推論を60%⾼速化しつつ精度の97%を保持
    à GLUEの複数のダウンストリームタスクにおいて良い性能を⽰す
    [1] Tang, Raphael, et al. "Distilling task-specific knowledge from BERT into simple neural networks." arXiv preprint arXiv:1903.12136 (2019).
    1. 汎⽤的な⾔語表現モデルのための蒸留
    先にBERTを蒸留してから様々なタスクに適⽤
    (↔ タスク特化型の蒸留:各タスクごとにfine-tuningしたBERTを蒸留[1] )
    2. Triple lossの利⽤
    従来研究の損失にCosine Lossを加え,三つの損失を組み合わせた.
    3. 初期パラメータは事前学習したBERTで初期化
    このパラメータの初期化⽅法が結果に⼤きく寄与
    DistilBERTの特徴
    53
    HuggingfaceのTransformersでコード公開中
    https://github.com/huggingface/transformers
    Victor Sanh, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.", NeurIPS2019.
    COVID-19仕様
    蒸留による⾼速化
    DistilBERT [Victor Sanh, et al.]
    Workshop

    View Slide

  54. NeurIPS2019におけるTransformer
    Transformer
    ⽅向性②
    事前学習モデルの
    ベースとして⽤いる
    BERT
    ⽅向性①
    タスクに特化した
    アーキテクチャの導⼊
    新しいモデル
    の提案
    54
    モデルサイズ
    の問題
    関連事項
    分散表現に関する
    諸問題
    Transformerに関する
    ホットなトピック

    View Slide

  55. 分散表現に関する諸問題
    ⼤きな記憶容量が必要
    単語の意味の扱い
    ⾔語に現れるバイアス
    分散表現には,例えば以下のような問題点がある
    それぞれの問題に対し,BERTで得られたContext-aware
    representationsを⽤いて検証を⾏なった研究が⾒られた.
    - 既存の⼿法をContext-aware representationsで使えるように拡張したもの
    - 複数の⼿法で学習したContext-aware representationsの⽐較実験を⾏ったもの
    55
    ※Context-aware representations固有の問題に取り組んでいるものではないが関連研究として紹介

    View Slide

  56. 分散表現の⾼品質な次元圧縮に向けて
    評価指標Eigenspace overlap scoreの提案
    ⼤きな記憶容量が必要 単語の意味の扱い ⾔語のバイアス
    Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019
    56
    有効なアプローチの⼀つである分散表現の圧縮
    新しい評価指標としてEigenspace overlap score(EOS)を提案
    論⽂内でEOSに関して以下の三つを⽰した
    - 理論的にダウンストリームタスクでの性能と直接関係する
    - 経験的にダウンストリームタスクでの性能と強い相関を持つ
    - 学習しなくても良い精度を⽰す圧縮された分散表現を識別可能
    圧縮された分散表現の質を測るための既存の指標では,
    ダウンストリームタスクにおけるパフォーマンスとの
    相関が弱い.つまり適切に評価できていない
    結局どの圧縮⼿法が良いのか
    実際に学習してみないとわからない
    From “On the Downstream Performance of Compressed Word
    Embeddings”, Avner May et al., NeurIPS2019 poster(2019)

    View Slide

  57. 分散表現の⾼品質な次元圧縮に向けて
    評価指標Eigenspace overlap scoreの提案
    分散
    表現
    分散表現を特異値
    分解したもの
    ラベル
    ベクトル
    予測
    分散表現の
    左特異ベクトル
    分散表現の左特異ベクトルが予測結果を決定(論⽂中で数学的議論がされている)
    57
    圧縮前・後の分散表現の
    左特異ベクトルの類似度を測る
    ことでダウンストリームタスク
    での性能と直接的に関連づける
    Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019
    From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019)
    From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019 poster(2019)
    Eigenspace overlap score(EOS)の直感的なアイデア
    注⽬したポイント

    View Slide

  58. さらに,EOSでシンプルな圧縮⼿法である⼀様量⼦化の性能の良さを
    説明できることや,圧縮次元の選択指標としても有効であることを⽰した
    分散表現の⾼品質な次元圧縮に向けて
    評価指標Eigenspace overlap scoreの提案
    58
    相関

    相関

    EOSは,既存の評価指標に⽐べてダウンストリームタスクの
    性能との相関が強い評価指標であることを確認
    提案指標
    既存指標
    PIP loss,
    Spectral approximation
    error(∆, ∆$%&
    )
    Avner May et al., “On the Downstream Performance of Compressed Word Embeddings”, NeurIPS2019
    From “On the Downstream Performance of Compressed Word Embeddings”, Avner May et al., NeurIPS2019, Figure 14(2019)
    各圧縮の質の評価値とダウンストリームタスク(⾃然⾔語推論 MNLI)での性能

    View Slide

  59. 予測層の表現⼒を⾼めるために
    KerBS[Ning Miao et al.]
    ⼤きな記憶容量が必要 単語の意味の扱い
    上記の⽅法は以下の⼆つの仮定の元成り⽴っている
    仮定①各単語は⼀つのベクトルに対応
    仮定②⽂脈ベクトルは望ましい単語の分散表現と近い
    機械翻訳などのモデルで予測層として⽤いられるSoftmaxレイヤ
    Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.
    59
    最終出⼒
    埋め込み⾏列
    Lしかし実応⽤上はそうとも限らない
    This is an
    これはりんごです
    ⼊⼒情報
    既に出⼒した系列
    ⽂脈ベクトルℎ1
    Apple
    Car
    Example
    Pear
    ⼀番近い!
    内積計算による分散表現の
    マッチングにより出⼒を決定
    Orange
    「これはりんごです è This is an 」 の翻訳過程の例

    ⾔語のバイアス

    View Slide

  60. 主成分分析を⽤いてプロットした
    ⽂脈ベクトルℎ(各点)と単語ベク
    トル( ).BERTで学習したもの
    予測層の表現⼒を⾼めるために
    KerBS[Ning Miao et al.]
    これらの事象をSoftmaxレイヤで扱えるようにした
    新しいアプローチ KerBS(Kernelized Bayesian softmax)を提案
    外れ値
    60
    (1)単語の多義性 (左図)
    (2)外れ値 (左図)
    (3)異なる分散 (右図)
    「監視する(動詞)」と「モニター(名詞)」
    ⼆⼤クラスタがあるが単語ベクトル☆は⼀点
    Christian science monitorという新聞紙名
    単語ベクトル☆が引っ張られてしまう
    CarとVehicleは異なる分散を持つにも
    関わらず単語ベクトル☆はほぼ同じに
    シンプルなSoftmaxでは扱えない三つの事象
    From "Kernelized Bayesian Softmax for Text Generation.”,
    Ning Miao, et al., NeurIPS2019.,Figure 1(b,c) (2019)
    Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.

    View Slide

  61. アイデア①
    意味の分散表現の確率を⾜し合わせて
    単語の分散表現の確率を求める
    アイデア②
    マッチング時の内積計算を,単語ごとの異なる
    分散をモデル化したカーネル関数に置換.
    外れ値にも頑健に
    アイデア③Dynamic sense allocation
    各単語の語義数はわからないため,合計語義数の
    みを⼊⼒し,それぞれの単語に割り当て
    KerBSが⽣成タスクの精度を
    ブーストさせられることを⽰した
    (例) TransformerにKerBSを組み込み,
    機械翻訳タスクにおける性能(BLEU-4)
    が1.29向上
    BLEU-n:正解データとのn-gramマッチ率
    予測層の表現⼒を⾼めるために
    KerBS[Ning Miao et al.]
    61
    Word embeddings
    Sense embeddings
    From "Kernelized Bayesian Softmax for Text Generation.”, Ning Miao, et al.,
    NeurIPS2019, poster Figure 2(左上), Figure 2(右上), Figure 3(左下) (2019)
    Ning Miao et al., "Kernelized Bayesian Softmax for Text Generation.”, NeurIPS2019.

    View Slide

  62. ⾔語におけるバイアスの問題
    DiversityはNeurIPSで重視されているテーマでもある
    ⾔語におけるジェンダーや⼈種のバイアスが近年問題に
    Angry black woman
    ⿊⼈⼥性は怒っている(?)
    職業のステレオタイプ ⼈種のステレオタイプ
    ⼤きな記憶容量が必要 単語の意味の扱い ⾔語のバイアス
    62
    ⽂脈を考慮した単語表現に現れる様々なバイアスを調査した研究を紹介
    医者 à 男性
    看護師 à ⼥性
    From Inclusion in ML

    View Slide

  63. Concepts
    Word Embedding Association Tests (WEATs) [1]
    [1] Aylin Caliskan et al. “Semantics derived automatically from language corpora contain human-like biases.” Science. 356. 183-186.
    Word Embedding Association Testsを⽤いてバイアスの強さを検証
    ⾔語におけるバイアスの問題
    Yi Chern Tan, and L. Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019.
    63
    男性名: Paul
    ⼥性名:Emily
    Attributes
    ⼥性が多い職業:Nurse
    男性が多い職業:Doctor
    関連 弱
    関連 弱
    ConceptsとAttributesの組み合わせを
    逆にしたときにその単語の関連度の
    差を表すエフェクトサイズが
    ⼤きいほどバイアスが顕著である
    関連 強
    本研究の貢献
    ①WEATsを⽂脈を考慮した単語表現にも適⽤できるように拡張
    - 既存のテストでは⽂表現のみを⽤いていたが,今回は単語表現も追加
    ②既存のConcept-attributesリストを活⽤し,テストに新しいAttributesを導⼊
    ③事前学習に⽤いられるコーパスにおけるバイアスも分析
    - 男性代名詞(heなど)が⼥性代名詞(sheなど)に⽐べて⼀貫して出現回数が多い
    - ニュートラルな代名詞(theyなど)ですら男性の多い職業名と⼀緒に使われることが多い

    View Slide

  64. 64
    ⾔語におけるバイアスの問題
    特にBERT-BASEは強い⼈種バイアス・交差バイアスを持つ
    単語・⽂表現を両⽅⽤いることで,より多くのケースでバイアスを検出できる
    エフェクトサイズ(値が⼤きいほどバイアスが顕著)
    Yi Chern Tan, and L. Elisa Celis. "Assessing social and intersectional biases in contextualized word representations." NeurIPS2019.
    男性,⼥性 キャリア,家庭
    ??
    ヨーロッパ系 or アフリカ系 アメリカ⼈ 有能,無能
    ??
    男性 or ⼥性 の
    ヨーロッパ系 or アフリカ系 アメリカ⼈
    感じが良い,悪い
    ??
    ①ジェンダー
    ②⼈種
    ③交差
    ジェンダー + ⼈種
    Concepts(例) Attributes (例)
    以下の三つのバイアスをテスト
    From "Assessing social and intersectional biases in contextualized word representations.”, Yi Chern Tan, and L. Elisa Celis., NeurIPS2019, Table 2 (2019)

    View Slide

  65. まとめ
    Transformerは事前学習モデルのベースとして⽤いられたり,
    各タスクに特化させたアーキテクチャのモジュールとして組み込ま
    れたりと様々な形で⽤いられている
    タスク特化型Transformerでは,編集操作を可能にするLevenshtein
    Transformerによる柔軟な⽣成を⾏うモデルなどが提案された
    事前学習モデルでは,BERTの事前学習によるバイアスなどの⽋点
    を補うためにpermutation処理を組み込んだXLNetなどが提案され,
    BERTを超える⾼い性能を達成した
    また,事前学習モデルはタスク特化型や⾔語・モーダルの横断型の
    ように多⽅⾯への広がりを⾒せている.今後の動向に注⽬
    ⼀⽅で,事前学習のモデルサイズが年々増加しているほか,単語表
    現に表出するジェンダー・⼈種などのバイアスの問題も残っている.
    実⽤性などを考慮するとそこをいかに克服するかが重要
    65

    View Slide

  66. 謝辞
    66
    本資料の作成にあたり,指導教員である岡崎直観教授にご指導をいただき
    ましたことに深く感謝を申し上げます.
    ⼈⼯知能学会理事の堤 富⼠雄博⼠には,資料のまとめ⽅に関して貴重な助
    ⾔をいただきました.⼼より感謝申し上げます.また,所属研究室の⾼瀬
    翔助教,先輩である⽔⽊栄さんにも資料の内容や話のまとめ⽅について貴
    重なご意⾒をいただきました.厚く感謝申し上げます.

    View Slide