Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Language Models are Few-Shot Learners の解説

Language Models are Few-Shot Learners の解説

GPT-3 を理解するために周辺技術を含めてまとめました
T. Brown, et al., Language Models are Few-Shot Learners, NeurIPS 2020, https://arxiv.org/abs/2005.14165

Masaki Samejima

January 12, 2021
Tweet

More Decks by Masaki Samejima

Other Decks in Science

Transcript

  1. 論文の内容 • OpenAI が開発した言語モデル GPT-3 についての論文 • これまでの言語モデル (例えば BERT

    など) と異なる点は、モデルの Fine- tuning 無しで、モデルに対して少数のテキストを入力するだけで、様々な タスクを解くことができる (Few-shot) • GPT-3 から生成される文章は人間の書く文章と見分けがつかないほど精度 が高い T. Brown, et al., Language Models are Few-Shot Learners, NeurIPS 2020 https://arxiv.org/abs/2005.14165
  2. Agenda 1. Language Model の変遷 2. GPT-3 (Generative Pre-trained Transfomer-3)

    1. アーキテクチャ (GPT-1, 2 & 3, Self-Attention) 2. モデルの規模 3. ベンチマーク結果 4. GPT-3の限界 3. 大規模言語モデルの弊害
  3. Language Model (言語モデル) とは • *M. E. Peters, et al.,

    Deep contextualized word representations, NAACL 2018. https://arxiv.org/abs/1802.05365
  4. 初期のRNNベースの言語モデル • 単語の並びを Sequence autoencoder で学習し、その並びを再現する • W -> X

    -> Y -> Z の並びを学習したら、W が与えられたときに X を推定 • 言語モデルとNLPタスクを解くアーキテクチャは一体ではなく、タスク を解くために別途アーキテクチャを作成しないといけない A.M. Dai and Q.V. Le, Semi-supervised Sequence Learning, NIPS2015.
  5. Attention is All You Need (Transformer) • Encoder で文章を理解して、Decoder で変換する機

    械翻訳などを想定した transduction model • Seq-to-seq の改善として提案された attention だが、 元のSeq-to-seq は不要で、attention さえあれば良い という主張 (タイトルの通り)。RNN や CNN を使わ ないので計算効率に優れる • Encoder や Decoder が BERT, GPT-1, 2, 3などで利 用され、あらゆるタスクに汎用的に利用できること が示された A. Vaswani, et al., Attention is All You Need, NIPS 2017 https://arxiv.org/abs/1706.03762
  6. BERT: Bidirectional Encoder Representations from Transformer • 順方向の単語予測を学習する Transformer に対して、逆方向の予

    測も加味したモデル (Bidirectional) • 実用上優れた点として、様々なタス クを扱えるよう、入出力の表現を工 夫している (右図は入出力例) • 実際にタスクを解くためには、その タスクのデータを集めて fine-tuning しないといけない J. Devlin, et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019. https://www.aclweb.org/anthology/N19-1423/
  7. GPT-3 の Goal 既存の言語モデルではFine-tuning が必要 • Fine-tuning 用のデータを集めないといけない • 特殊なデータセットに

    Fine-tuning する際に汎化性能が出ない場合がある GPT-3 の目的 • GPT-2 でFine-tuning なしでタスクを解く Few-Shot Learning の可能性を示し てきた • GPT-2 のモデルをさらに巨大にして、大量のデータで学習すれば、どの程度 のタスクが解けるのか明らかにすることが目的
  8. GPT のベースアーキテクチャ (GPT-1) • GPT-1, 2, 3 も Transformer の

    Decoder を何層にも重ねた構造 • タスクに応じた入力 (BERT に似ている) で、タスクを自動判別できる • GPT-1 は Fine-tuning が必要 A. Radford, et al., Improving Language Understanding by Generative Pre-Training, Technical Report, OpenAI, 2018.
  9. Self-Attention と Masked Self-Attention BERT は Encoder (Self-attention)、GPT は Decoder

    (Masked Self- attention)を使う I like beer [PAD] Embedding Q K V • Attention はもともと、Target 文と Source 文の対応を考えたもの(翻訳で “This” が 「これ」に対応するみたいに) • Self-attention は同じ文の単語を対応さ せている( Like <-> Beer みたいに) • ただし単語予測タスクで、self-attention すると先の単語が Leak してしまうので、 Mask して学習する • BERT は Mask して学習する方法を提案 しているので Encoder を使える
  10. GPT-2 & GPT-3 • モデルは GPT-1とほぼ同じだが、 GPT-2 から Task ごとの

    Fine- tuning が不要 (Zero, One, Few- Shot Learning) • GPT-1 と同様、タスクに合わ せた入力を用意するが、Fine- tuning の代わりに、タスクの例 をいくつか追加入力する (task conditioning) • GPT-2 と GPT-3 の大きな違い はモデルの規模
  11. ベンチマーク • 言語モデル (単語系列に続く次の単語予測) • Closed Book Question Answering (何も見ずに質問に答える)

    • 機械翻訳 • 代名詞が指す内容の推定(Winograd-Style Tasks) • 物理的な事象の推論 • 文章等に対する質問が与えられ、それに答える (SQuAD など) • SuperGLUE (複数の NLP Classification Tasks) • 質問回答 (Yes/No) • 含意/矛盾判定 • 参照文章に対してもっともらしい文を選ぶ • 代名詞の内容推定(同じか違うか) • ...
  12. GPT-3 が生成した文の日本語訳 (12%の読者が ML で生成された文と見抜けた) ワシントンポスト紙によると、2日間の激しい議論の末、ユナイテッドメソジスト教会は歴史的な分裂に同意しました。これは、「 理論的および社会的に保守的な」新しい宗派の創設という形で終わると予想されています。 5月に開催される教会の年次総会に出席 した代表者の大多数は、LGBTQ聖職者の叙階の禁止を強化し、同性婚の聖職者を「懲らしめる」新しい規則を作成することに投票し ました。しかし、これらの措置に反対した人々は新しい計画を持っています:彼らは教会をキリスト教メソジスト宗派と呼び、2020

    年までに別の宗派を形成すると言います。1250万人の会員を主張するその宗派は、 20世紀初頭において「米国で最大のプロテスタ ント宗派」ですが、ここ数十年で縮小していますと、ポストは述べています。新しい分割は教会の歴史の中で2番目になります。最 初の出来事は1968年に起こり、宗派の約10パーセントが福音統一兄弟教会を形成するために去りました。ポストは、提案された分 割は「教会におけるLGBTQの人々の役割をめぐる分裂の瀬戸際に押しやられてきた」「何年もの間メンバーを失っている教会にとっ て危機的な時期に来る」と述べています。同性愛者の結婚だけが教会を分断した問題ではありません。 2016年に、宗派はトランス ジェンダーの聖職者の叙階に分割され、北太平洋地域会議は彼らが聖職者としての役割を果たすことを禁止することを投票し、南太 平洋地域会議は彼らを許可することを投票しました。
  13. GPT-3 が生成した文の日本語訳 (61%の読者が ML で生成された文と見抜けた) 1年前、ホアキンフェニックスは、ゴールデングローブ賞のレッドカーペットに登場し、頭に紙袋をかぶったタキシードを着て、「 私はシェイプシフターです。世界を変えることはできません。自分を変えるだけだ」ハリウッドの型に合うように変わらないという 約束でした。「それは本当に特別なことだと思います。自分自身を変えないことです。これは私の中にあるものです。私は誇りに思 っています。そして、他の誰かが私がそうあるべきだと思う方法のため、私は恥ずかしいと思うことはないでしょう。」今、それは オスカーであり、フェニックスは再びそれに取り組んでいます。しかし今回、彼の広報担当者は彼が何があってもタキシードを着る

    と言っています。メーガン・ケリーは感心せず、ザ・トゥナイト・ショーで彼にそれを持たせました。「あなたがタキシードを着て いたような気がします」と彼女は言います。「しかし、あなたはあなたがシェイプ-シフターだと言っています。タキシードを変える ことができるかどうかはわかりませんが、心を変えることはできます。心を変えることができます。心を変えることができます。」 フェニックスは彼がしたと言います、しかしそれは固執しませんでした。 「私は、「さて、これにタキシードを着るつもりです」の ようでした。そして、「これにタキシードを着たくない」と思いました。ケリーは続けて考えを変えるように勧めましたが、フェニ ックスは手遅れだと言います。「私はこれを着ることを約束します。 ※シェイプシフター:形を変える妖怪のこと
  14. GPT-3 の限界: ベンチマークの結果から • 物理の推論問題に弱いように見える • ただし数値上は、関連するベンチマーク PIQA で SOTA

    を破っている • 比較のタスクに弱い • BERT が採用している双方向性がないので、双方を見比べるようなタ スクが難しい • WCI: ある単語が2文で同じ意味で利用されているか、異なるか • ANLI: 2文のうち一方が他方を暗に意味しているかどうか
  15. GPT-3 の限界: モデル・アルゴリズムに関して • (広い意味で)タスクに特化していない。特定のタスクに関する情報が言 語外から得られる場合は、対応ができず他の手法(人間にフィードバック を変えさせる等)が必要 • 学習時のデータを効率的に拾えていない。GPT-3は、人間が一生に読む文 章よりも遥かに多くの文章を学習しないといけない。

    • Few-shot で推論する際に、どのようにタスクが識別されているか明確に わかっていない。 • 推論に時間がかかるので実用的ではない。 • 現時点では GPT-3 は解釈不能で性能にばらつきがある。データの偏りに よっては、偏見のある予測を返す可能性がある。
  16. 不適切な用途 • Misinformation • Spam • Phishing • abuse of

    legal and governmental processes • fraudulent academic essay writing • social engineering pretexting • GPT-2以降、フォーラムなどを監視したが、会話はあっても成功例はなし。