Upgrade to Pro — share decks privately, control downloads, hide ads and more …

多言語学習済みモデルmT5とは?

masa-ita
February 20, 2021

 多言語学習済みモデルmT5とは?

多言語学習済みモデルmT5の紹介

masa-ita

February 20, 2021
Tweet

More Decks by masa-ita

Other Decks in Technology

Transcript

  1. 多⾔語学習済みモデルmT5とは︖
    ―知識を持つモデルの可能性―
    板垣正敏 @Python機械学習勉強会 2021/2/20

    View full-size slide

  2. 深層⾃然⾔語モデルの発展

    View full-size slide

  3. 深層学習による⾃然⾔語処理の発展
    1997 … 2002 … 2013 2014 2015 2016 2017 2018 2019 2020 2021



    $

    One-Hot
    Hash-
    Vector
    TF-IDF





    Google
    Facebook
    OpenAI
    Others LSTM
    Word Embedding Word Piece
    Sentence Piece
    Transformer
    BERT
    GPT GPT-2 GPT-3
    T5
    MPNet
    (Microsoft)
    RoBERTa
    Transformer-XL
    XLM
    XLNet
    Word2Vec
    Glove
    FastText
    ELMo
    (AllenAI)
    ERNIE
    (Baidu)
    Attention

    View full-size slide

  4. RNN - LSTM
    š RNN(Recurrent Neural
    Network)は、時系列データや
    テキストのような順序が意味を
    持つデータを処理するための
    アーキテクチャ
    š RNNの代表であるLSTM(Long
    Short-Term Memory)は、忘却
    ゲート、⼊⼒ゲート、出⼒ゲー
    トを持ち、過去からの情報の影
    響を制御できる
    LONG SHORT-TERM MEMORY (1997)
    http://citeseerx.ist.psu.edu/viewdoc
    /download?doi=10.1.1.676.4320&re
    p=rep1&type=pdf
    From Guillaume Chevalier - LARNN: Linear Attention Recurrent
    Neural Network CC BY-SA 4.0

    View full-size slide

  5. Embedding―単語埋め込み
    š それまでの単語のベクトル化の代表
    であるOne-Hotベクトルが、ボキャ
    ブラリ数を次元とする疎なベクトル
    であるのに対して、より低次元かつ
    密なベクトル化を⾏うのがWord
    Embeddingである
    š Word Embeddingには、⼀般的なテキ
    ストを使い、Skip-Gramなどの⼿法で
    学習を⾏うものと、⽬的となるモデ
    ルの中で、その領域のデータセット
    から学習されるものがある
    š 学習されたベクトルは、右図のよう
    に意味を持つことが期待される
    A Neural Probabilistic Language Model (2002)
    https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

    View full-size slide

  6. WordPieceとSentencePiece
    š 単語を単位にした処理では、学習された辞書にない単語は不明単語として扱うしかない。
    š 機械翻訳などの⽤途では、こうしたレアな単語の扱いが問題となる。
    š Googleはこの問題に対して、単語をSub-Wordとよばれる部分に分解する⽅法を開発した。
    š こうして学習された単語の部品をWordPieceとよび、この分割を⾏うライブラリの名称にもなって
    いる。
    š ⼀⽅、⽇本語や中国語などのように単語がスペースで区切られていない⾔語では、単語の切り出
    し⾃体が問題となる。そこで、⽂からの単語の切り出しと単語のWordPieceへの分解を⼀度に⾏う
    ⼿法が開発された。これをSentencePieceと呼ぶ。(開発者はMeCabの開発者でGoogleに所属する⼯
    藤⽒)
    Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (2016)
    https://arxiv.org/abs/1609.08144v2
    SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (2018)
    https://arxiv.org/abs/1808.06226v1

    View full-size slide

  7. Transformer
    š Googleが機械翻訳⽤にとして開発したモデル
    š ⾃然⾔語処理において、CNNやRNNを使⽤せず、RNN
    を使った機械翻訳モデルで使⽤されるようになってい
    たアテンション(注意機構)を応⽤し、セルフアテン
    ション(⾃⼰注意)を中⼼にした、Encoder - Decoder
    アーキテクチャ
    š 積和演算のみを使⽤するため、CNNよりも計算量が少
    なく、RNNのように時系列のステップ計算が不要
    š テキスト中の離れた単語同⼠の関連も学習可能
    Figure 1: The Transformer - model architecture.
    3.1 Encoder and Decoder Stacks
    Encoder: The encoder is composed of a stack of N = 6 identical layers. Each layer has two
    sub-layers. The first is a multi-head self-attention mechanism, and the second is a simple, position-
    wise fully connected feed-forward network. We employ a residual connection [11] around each of
    the two sub-layers, followed by layer normalization [1]. That is, the output of each sub-layer is
    LayerNorm(x + Sublayer(x)), where Sublayer(x) is the function implemented by the sub-layer
    itself. To facilitate these residual connections, all sub-layers in the model, as well as the embedding
    layers, produce outputs of dimension dmodel = 512.
    Decoder: The decoder is also composed of a stack of N = 6 identical layers. In addition to the two
    sub-layers in each encoder layer, the decoder inserts a third sub-layer, which performs multi-head
    attention over the output of the encoder stack. Similar to the encoder, we employ residual connections
    Attention Is All You Need (2017)
    https://arxiv.org/abs/1706.03762v5

    View full-size slide

  8. BERT: Bidirectional
    Encoder
    Representations from
    Transformers
    š TransformerのEncoderのみを双
    ⽅向にしたものを積み重ねた
    ⾃然⾔語モデル
    š Masked Language ModelとNext
    Sentence Predictionを使って教
    師なし学習を⾏った学習済み
    モデルで、出⼒層を付け替え
    るだけで多様な⾃然⾔語の課
    題に対応可能
    š 複数のベンチマークで発表時
    のSoTAを達成
    š ディープラーニングによる⾃
    然⾔語処理に⼤きなインパク
    トを与えた
    %(57 %(57
    (
    >&/6@
    (

    (
    >6(3@
    (
    1
    (

    ¶ (
    0

    & 7

    7
    >6(3@
    7
    1
    7

    ¶ 7
    0

    >&/6@ 7RN >6(3@
    7RN1 7RN 7RN0
    4XHVWLRQ 3DUDJUDSK
    6WDUW(QG6SDQ
    %(57
    (
    >&/6@
    (

    (
    >6(3@
    (
    1
    (

    ¶ (
    0

    & 7

    7
    >6(3@
    7
    1
    7

    ¶ 7
    0

    >&/6@ 7RN >6(3@
    7RN1 7RN 7RN0
    0DVNHG6HQWHQFH$ 0DVNHG6HQWHQFH%
    3UHWUDLQLQJ )LQH7XQLQJ
    163 0DVN/0 0DVN/0
    8QODEHOHG6HQWHQFH$DQG%3DLU
    64X$'
    4XHVWLRQ$QVZHU3DLU
    1(5
    01/,
    Figure 1: Overall pre-training and fine-tuning procedures for BERT. Apart from output layers, the same architec-
    tures are used in both pre-training and fine-tuning. The same pre-trained model parameters are used to initialize
    models for different down-stream tasks. During fine-tuning, all parameters are fine-tuned. [CLS] is a special
    symbol added in front of every input example, and [SEP] is a special separator token (e.g. separating ques-
    tions/answers).
    ing and auto-encoder objectives have been used
    for pre-training such models (Howard and Ruder,
    2018; Radford et al., 2018; Dai and Le, 2015).
    2.3 Transfer Learning from Supervised Data
    There has also been work showing effective trans-
    fer from supervised tasks with large datasets, such
    as natural language inference (Conneau et al.,
    2017) and machine translation (McCann et al.,
    2017). Computer vision research has also demon-
    strated the importance of transfer learning from
    mal difference between the pre-trained architec-
    ture and the final downstream architecture.
    Model Architecture BERT’s model architec-
    ture is a multi-layer bidirectional Transformer en-
    coder based on the original implementation de-
    scribed in Vaswani et al. (2017) and released in
    the tensor2tensor library.1 Because the use
    of Transformers has become common and our im-
    plementation is almost identical to the original,
    we will omit an exhaustive background descrip-
    BERT: Pre-training of Deep Bidirectional Transformers for
    Language Understanding (2018)
    https://arxiv.org/abs/1810.04805v2

    View full-size slide

  9. GPT (Generative Pre-trained Transformer)
    GPT-2 GPT-3
    š 開発したOpenAIは、GPT-2が「公開するには危険すぎる」として当初モデルを公開せず話題に
    š GPT-2では15億個だったパラメータ数が、GPT-3では1,750億個に達し、巨⼤⾃然⾔語モデルの時代に
    š GPT-3は、ファインチューニングなしで数個のQ&Aを例⽰するだけで使えるようになる
    š プログラミング⾔語の⾃動⽣成の応⽤例も
    š Microsoftが独占ライセンスを取得
    Improving Language Understanding by Generative Pre-Training (2018)
    https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-
    unsupervised/language_understanding_paper.pdf
    Language Models are Unsupervised Multitask Learners (2019)
    https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
    Language Models are Few-Shot Learners (2020)
    https://arxiv.org/abs/2005.14165v4

    View full-size slide

  10. Hugging Face Inc. - Transformers
    š Transformerをベースにした⾃然⾔語モデルを共通のAPIで使えるようにしたライブラリ
    š 2021年2⽉時点で組み込まれているモデルは、ALBERT、BART、BARThez、BERT、BERT for
    Sequence Generation、Blenderbot、BORT、CamemBERT、ConvBERT、CTRL、DeBERTa、
    DialoGPT、DistilBERT、DPR、ELECTRA、FlauBERT、Funnel Transformer、GPT、GPT-2、
    LayoutLM、LED、Longformer、LXMERT、MarianMT、MBart、MBart-50、MPNet、MT5、
    Pegasus、ProphetNet、Reformer、RoBERTa、SqueezeBERT、T5、TAPAS、Transformer-XL、
    Wav2Vec2、XLM、XLM-ProphetNet、XLM-RoBERTa、XLNet
    š 各モデルはTensorFlowとPyTorchで使え、CPUとGPUに対応している
    š 学習済みモデルを共有するModel Hubも提供されている
    https://github.com/huggingface/transformers

    View full-size slide

  11. ここから本題

    View full-size slide

  12. T5 : Text-to-Text Transfer Transformer
    š Google が Text-to-Text の学習済みモデルを様々なタスクに適⽤する転移学
    習の⽐較研究論⽂の中で提案公開したモデル
    š 基本的な Transformer モデルを改良したもので、Web をクローリングした
    20TB のデータから⽣成した、約 750GB の英⽂テキストコーパス C4
    (Colossal Clean Crawled Corpus)で学習させたモデルが公開されている
    š パラメータ数は、 Small: 6千万、Base: 2億2千万、Large: 7億7千万、
    3B/XL: 約28億、11B/XXL: 約110億
    š 巨⼤なモデルを巨⼤なコーパスで訓練するため、モデル並列、データ並
    列が可能な Mesh TensorFlow を使って構築されている
    Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2019)
    https://arxiv.org/abs/1910.10683v3

    View full-size slide

  13. mT5: Multilingual T5
    š T5 を 101⾔語の多⾔語データセット mC4 で訓練したモデル
    š ⾔語によってページ数に差があるが、⽇本語では 87百万ページのデータを含む
    š Small, Base, Large, XL, XXLのサイズのモデルが公開されている
    mT5: A massively multilingual pre-trained text-to-text transformer
    https://arxiv.org/abs/2010.11934

    View full-size slide

  14. mT5の適⽤例︓⽇本語要約
    š ライブドアニュースのトピックと本⽂を利⽤した「3⾏要約データセット」
    (https://github.com/KodairaTomonori/ThreeLineSummaryDataset)を使って mT5 のファインチューニ
    ングを⾏った
    š モデルサイズは Google Colab で TPU(v2-8) を使って訓練可能な XL(28億パラメータ)
    š バッチサイズ 16、ステップ数 4,000の訓練で、テキスト要約の評価指標 ROUGE で次の性能
    š ROUGE 1: 0.370
    š ROUGE 2: 0.135
    š ROUGE L: 0.296
    š 訓練データ数を10、ステップ数を 1,000という Few-shot でも、そこそこの性能が得られた
    š ROUGE 1: 0.350, ROUGE 2: 0.153, ROUGE L: 0.269

    View full-size slide

  15. 要約の例(XLモデル4000ステップ)
    【本⽂】ソニー・コンピュータエンタテインメントジャパンアジアとスクウェア・エニックスは1⽉25⽇から31⽇までの1
    週間、東京メトロ丸ノ内線新宿駅構内メトロプロムナードにおいて、「新宿ドラゴンクエストジャック」を開催
    する。これは、1⽉28⽇に発売するps4/ps3/psvita向けソフト「ドラゴンクエストビルダーズアレフガルドを復活
    せよ」のプロモーションとして⾏われるもの。「ブロックモンスター討伐作戦」と「新宿モンスターロード」の
    2つを同時に楽しむことができる企画だ。「ブロックモンスター討伐作戦」では、東京メトロ新宿駅構内の東⼝
    と⻄⼝とを結ぶ約80メートルにわたる通路の“壁⾯”に、ダイヤブロックを⽤いてドット絵状に描いた、「ドラゴ
    ンクエスト」シリーズおなじみのモンスターが⼤量に出現。また、「新宿モンスターロード」では、通路にも歴
    代モンスターが登場し、通路中に配置された“柱”がモンスターに変⾝、ダンジョンの中でモンスターに遭遇する
    ような、ゲームさながらの空間を演出する。壁を埋め尽くしたブロック玩具の⼤量のモンスターの下には、「ド
    ラゴンクエストビルダーズ」の世界を描いたスペシャルポスターが貼られているが、初⽇は約18万個のブロック
    による⼤量のモンスターに占領されて⾒えない状態になっている。ブロック下のポスターを⾒るためには、約18
    万個のブロックを1つ1つ取り外してモンスターを討伐しなければならないため、多くの参加者の⼒が必要――と
    いう仕掛けだ(※取り外しは1⽉28⽇7時00分から可能になる)。「ブロックモンスター討伐作戦」は、誰でも気軽
    に参加可能。約18万個のブロックのうち300個には限定qrコードが印字されており、スマートフォンなどで読み込
    むことでオリジナル壁紙画像をダウンロードすることができる。もちろんブロックは持ち帰ってokだ。なお、
    「ブロックモンスター討伐作戦」の制作期間は4⽇間のべ32時間。総勢100⼈による作業で完成させたという。
    【要約】新宿駅構内で25⽇から31⽇まで「新宿ドラゴンクエストジャック」を開催する。約18万個のブロックを1つ1つ取
    り外してモンスターを討伐しなければならない。約18万個のブロックのうち300個には限定qrコードが印字されて
    いる。
    https://news.livedoor.com/article/detail/11107787/

    View full-size slide

  16. mT5の適⽤例︓トリビアクイズ
    š モデルが学習した「知識」を問うタスク
    š T5のサンプル notebook を応⽤
    š 「JAQKET:クイズを題材にした⽇本語QAデータセット」
    ( https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/)を使ってファインチューニングを
    ⾏った
    š モデルサイズは XL、25,000ステップでのバリデーションデータの正解率は 28.1%

    View full-size slide

  17. 学習中のValidationデータでの回答例
    問題 mT5の回答 正解
    “not in employment,education or training”の略称である、15歳から34歳の
    ⾮労働⼒⼈⼝のうち就労活動を⾏っていない⼈を何という?
    ニート ニート
    和名を「テンジクネズミ」というネズミの⼀種で、古くから実験動物の
    代表例とされたのは何でしょう?
    モルモット モルモット
    オーストリアの物理学者の名前から付けられた、物体の速度と⾳速の⽐
    のことを何というでしょう?
    マッハ マッハ
    スマート、エアタッチ、ノンダスト、ライトなどの種類がある、トンボ
    鉛筆から発売されているロングセラーの消しゴムは何でしょう?
    トンボ mono
    別名を「華燭の典」ともいう儀式は何でしょう? 結婚式 ⾹典
    トタンは鉄の板に亜鉛をメッキしたものですが、ブリキは鉄の板に何を
    メッキしたもの?
    ニッケル スズ
    アルファベットのtを逆さまにしたような形の地図記号が表す場所はど
    こ?
    東京 墓地

    View full-size slide

  18. ⽇本語のクイズでファインチューンしたモデ
    ルに英語で質問をしてみた
    質問 mT5の回答 正解
    Where is the Google headquarters located? googleplex Mountain View
    What is the most populous country in the world? 中国 China
    Who are the 4 members of The Beatles? ビートルズ John, Paul,
    George, Ringo
    How many teeth do humans have? twenty four 26
    l ⽇本語でクイズ形式のQ&Aでのファインチューニングを⾏ったが、他の⾔語(英語)でも、Q&Aに
    応答できることがわかる。
    l GooglePlexはGoogleの本社の名称であり、期待される正解ではないがハズレではない。
    l 英語での質問に⽇本語で答えていることでもわかるように、多⾔語を理解している。
    l ファインチューニングに使ったデータの正解は1語だが、最後の例のように英語では複数語で答え
    ようとしている。

    View full-size slide

  19. ここでデモ

    View full-size slide

  20. 多⾔語学習済みモデルの可能性
    š 巨⼤な学習済み⾃然⾔語モデルは、学習したコーパスから得られた「知識」を⾔語モデ
    ルの中に記憶している。
    š mT5のような多⾔語モデルは、複数⾔語の単語(サブワード)情報を1つの空間にマッピ
    ングしており、機械翻訳に使えるだけではなく、クイズの例からわかるように他の⾔語
    で学習した知識を活⽤することができると考えられる。
    š 1つの⾔語で、あるタスクに適応したモデルは、他の⾔語でも同様のタスクに対応する
    ことができる。
    š 世界中のWebをクロールし続ける巨⼤な⾔語モデルは、あらゆる知識を獲得できるので
    は︖

    View full-size slide

  21. 機械による⾔語と画像の獲得︓CLIPとDALL-E
    š CLIPはOpenAIが開発したテキ
    ストと画像の関係を学習する
    モデル
    š https://openai.com/blog/clip/
    š DALL-Eはパラメータ数120億の
    GPT-3に画像を⽣成することを
    学習させたモデル
    š https://openai.com/blog/dall-e/
    š 概念を画像化する能⼒がある
    š ⾔語→概念→画像
    https://edition.cnn.com/2021/01/08/tech/artificial-intelligence-
    openai-images-from-text/index.html
    "an illustration of a baby daikon radish in a tutu walking a dog"

    View full-size slide

  22. 視覚と⾔語
    を獲得した
    モデルは AGI
    = 汎⽤⼈⼯知
    能になるの
    か︖
    ⼈⼯知能の未来 – ディープラーニングの先にあるもの 松尾豊 (2016)
    - hops://www.soumu.go.jp/main_content/000400435.pdf
    今後 発展
    画像
    画像 特徴 抽出
    映像
    特徴 抽出 化

    自分 動 測 特徴 抽出
    号 操作 動 画 作
    外界 外界 特徴 引 出
    次特徴
    知 獲得
    大 入力 抽 化
    、高度 状況 認識
    知識獲得 解決
    、推論
    言語理解、自動翻訳
    先 広 世界 16
    画像認識 精度向上
    動画 認識精度 向上、行動予測、異常検知

    View full-size slide

  23. 最後に夢のない話ですが…

    View full-size slide

  24. Transformer⾔語モデルの性能は
    べき乗則に従う
    Dataset Size
    tokens
    Parameters
    non-embedding
    Compute
    PF-days, non-embedding
    Test Loss
    Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset
    size, and amount of compute2 used for training. For optimal performance all three factors must be scaled
    up in tandem. Empirical performance has a power-law relationship with each individual factor when not
    bottlenecked by the other two.
    Performance depends strongly on scale, weakly on model shape: Model performance depends most
    strongly on scale, which consists of three factors: the number of model parameters N (excluding embed-
    dings), the size of the dataset D, and the amount of compute C used for training. Within reasonable limits,
    performance depends very weakly on other architectural hyperparameters such as depth vs. width. (Section
    3)
    Smooth power laws: Performance has a power-law relationship with each of the three scale factors
    š OpenAIによる⽐較研究
    š Transformerを使った⾔語モデルの性能は、計算時間、デー
    セットサイズ、モデルのパラメータ数のべき乗則に従う
    š モデルのアーキテクチャはあまり関係ない
    Scaling Laws for Neural Language Models (2020)
    https://arxiv.org/abs/2001.08361

    View full-size slide