Language Models are Few-Shot Learners の解説

Language Models are Few-Shot Learners Masaki Samejima 2021.1.13

論文の内容 • OpenAI が開発した言語モデル GPT-3 についての論文 • これまでの言語モデル (例えば BERT
など) と異なる点は、モデルの Fine- tuning 無しで、モデルに対して少数のテキストを入力するだけで、様々なタスクを解くことができる (Few-shot) • GPT-3 から生成される文章は人間の書く文章と見分けがつかないほど精度が高い T. Brown, et al., Language Models are Few-Shot Learners, NeurIPS 2020 https://arxiv.org/abs/2005.14165

https://paperswithcode.com/task/language-modelling Language model のタスクで好成績 GPT-3 GPT-2 GPT-2 GPT-2 GPT-3 GPT-3

Agenda 1. Language Model の変遷 2. GPT-3 (Generative Pre-trained Transfomer-3)
1. アーキテクチャ (GPT-1, 2 & 3, Self-Attention) 2. モデルの規模 3. ベンチマーク結果 4. GPT-3の限界 3. 大規模言語モデルの弊害

Language Models の変遷

Language Model (言語モデル) とは • *M. E. Peters, et al.,
Deep contextualized word representations, NAACL 2018. https://arxiv.org/abs/1802.05365

初期のRNNベースの言語モデル • 単語の並びを Sequence autoencoder で学習し、その並びを再現する • W -> X
-> Y -> Z の並びを学習したら、W が与えられたときに X を推定 • 言語モデルとNLPタスクを解くアーキテクチャは一体ではなく、タスクを解くために別途アーキテクチャを作成しないといけない A.M. Dai and Q.V. Le, Semi-supervised Sequence Learning, NIPS2015.

Attention is All You Need (Transformer) • Encoder で文章を理解して、Decoder で変換する機
械翻訳などを想定した transduction model • Seq-to-seq の改善として提案された attention だが、元のSeq-to-seq は不要で、attention さえあれば良いという主張 (タイトルの通り)。RNN や CNN を使わないので計算効率に優れる • Encoder や Decoder が BERT, GPT-1, 2, 3などで利用され、あらゆるタスクに汎用的に利用できることが示された A. Vaswani, et al., Attention is All You Need, NIPS 2017 https://arxiv.org/abs/1706.03762

BERT: Bidirectional Encoder Representations from Transformer • 順方向の単語予測を学習する Transformer に対して、逆方向の予
測も加味したモデル (Bidirectional) • 実用上優れた点として、様々なタスクを扱えるよう、入出力の表現を工夫している (右図は入出力例) • 実際にタスクを解くためには、そのタスクのデータを集めて fine-tuning しないといけない J. Devlin, et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019. https://www.aclweb.org/anthology/N19-1423/

GPT-3 (Generative Pre-trained Transfomer-3)

GPT-3 の Goal 既存の言語モデルではFine-tuning が必要 • Fine-tuning 用のデータを集めないといけない • 特殊なデータセットに
Fine-tuning する際に汎化性能が出ない場合がある GPT-3 の目的 • GPT-2 でFine-tuning なしでタスクを解く Few-Shot Learning の可能性を示してきた • GPT-2 のモデルをさらに巨大にして、大量のデータで学習すれば、どの程度のタスクが解けるのか明らかにすることが目的

GPT のベースアーキテクチャ (GPT-1） • GPT-1, 2, 3 も Transformer の
Decoder を何層にも重ねた構造 • タスクに応じた入力 (BERT に似ている) で、タスクを自動判別できる • GPT-1 は Fine-tuning が必要 A. Radford, et al., Improving Language Understanding by Generative Pre-Training, Technical Report, OpenAI, 2018.

Self-Attention と Masked Self-Attention BERT は Encoder (Self-attention)、GPT は Decoder
(Masked Self- attention)を使う I like beer [PAD] Embedding Q K V • Attention はもともと、Target 文と Source 文の対応を考えたもの（翻訳で “This” が「これ」に対応するみたいに) • Self-attention は同じ文の単語を対応させている（ Like <-> Beer みたいに） • ただし単語予測タスクで、self-attention すると先の単語が Leak してしまうので、 Mask して学習する • BERT は Mask して学習する方法を提案しているので Encoder を使える

GPT-2 & GPT-3 • モデルは GPT-1とほぼ同じだが、 GPT-2 から Task ごとの
Fine- tuning が不要 (Zero, One, Few- Shot Learning) • GPT-1 と同様、タスクに合わせた入力を用意するが、Fine- tuning の代わりに、タスクの例をいくつか追加入力する (task conditioning) • GPT-2 と GPT-3 の大きな違いはモデルの規模

モデルの規模 Model Name N_params GPT-2 1.5B BERT-Large 340M BERT-Base 110M

ベンチマーク • 言語モデル (単語系列に続く次の単語予測) • Closed Book Question Answering (何も見ずに質問に答える）
• 機械翻訳 • 代名詞が指す内容の推定(Winograd-Style Tasks) • 物理的な事象の推論 • 文章等に対する質問が与えられ、それに答える (SQuAD など) • SuperGLUE (複数の NLP Classification Tasks) • 質問回答 (Yes/No) • 含意/矛盾判定 • 参照文章に対してもっともらしい文を選ぶ • 代名詞の内容推定（同じか違うか） • ...

翻訳タスク英語への翻訳では Supervised SOTA を超える精度も得られている

SuperGLUE 個別に作成されたSOTAにはかなわないが、BERT-Learge に対して Few-Shot で勝てている

GPT-3 が生成した文の日本語訳 (12%の読者が ML で生成された文と見抜けた）ワシントンポスト紙によると、2日間の激しい議論の末、ユナイテッドメソジスト教会は歴史的な分裂に同意しました。これは、「理論的および社会的に保守的な」新しい宗派の創設という形で終わると予想されています。 5月に開催される教会の年次総会に出席した代表者の大多数は、LGBTQ聖職者の叙階の禁止を強化し、同性婚の聖職者を「懲らしめる」新しい規則を作成することに投票しました。しかし、これらの措置に反対した人々は新しい計画を持っています：彼らは教会をキリスト教メソジスト宗派と呼び、2020
年までに別の宗派を形成すると言います。1250万人の会員を主張するその宗派は、 20世紀初頭において「米国で最大のプロテスタント宗派」ですが、ここ数十年で縮小していますと、ポストは述べています。新しい分割は教会の歴史の中で2番目になります。最初の出来事は1968年に起こり、宗派の約10パーセントが福音統一兄弟教会を形成するために去りました。ポストは、提案された分割は「教会におけるLGBTQの人々の役割をめぐる分裂の瀬戸際に押しやられてきた」「何年もの間メンバーを失っている教会にとって危機的な時期に来る」と述べています。同性愛者の結婚だけが教会を分断した問題ではありません。 2016年に、宗派はトランスジェンダーの聖職者の叙階に分割され、北太平洋地域会議は彼らが聖職者としての役割を果たすことを禁止することを投票し、南太平洋地域会議は彼らを許可することを投票しました。

GPT-3 が生成した文の日本語訳 (61%の読者が ML で生成された文と見抜けた） 1年前、ホアキンフェニックスは、ゴールデングローブ賞のレッドカーペットに登場し、頭に紙袋をかぶったタキシードを着て、「私はシェイプシフターです。世界を変えることはできません。自分を変えるだけだ」ハリウッドの型に合うように変わらないという約束でした。「それは本当に特別なことだと思います。自分自身を変えないことです。これは私の中にあるものです。私は誇りに思っています。そして、他の誰かが私がそうあるべきだと思う方法のため、私は恥ずかしいと思うことはないでしょう。」今、それはオスカーであり、フェニックスは再びそれに取り組んでいます。しかし今回、彼の広報担当者は彼が何があってもタキシードを着る
と言っています。メーガン・ケリーは感心せず、ザ・トゥナイト・ショーで彼にそれを持たせました。「あなたがタキシードを着ていたような気がします」と彼女は言います。「しかし、あなたはあなたがシェイプ-シフターだと言っています。タキシードを変えることができるかどうかはわかりませんが、心を変えることはできます。心を変えることができます。心を変えることができます。」フェニックスは彼がしたと言います、しかしそれは固執しませんでした。「私は、「さて、これにタキシードを着るつもりです」のようでした。そして、「これにタキシードを着たくない」と思いました。ケリーは続けて考えを変えるように勧めましたが、フェニックスは手遅れだと言います。「私はこれを着ることを約束します。 ※シェイプシフター：形を変える妖怪のこと

GPT-3 の限界: ベンチマークの結果から • 物理の推論問題に弱いように見える • ただし数値上は、関連するベンチマーク PIQA で SOTA
を破っている • 比較のタスクに弱い • BERT が採用している双方向性がないので、双方を見比べるようなタスクが難しい • WCI: ある単語が2文で同じ意味で利用されているか、異なるか • ANLI: 2文のうち一方が他方を暗に意味しているかどうか

GPT-3 の限界: モデル・アルゴリズムに関して • （広い意味で）タスクに特化していない。特定のタスクに関する情報が言語外から得られる場合は、対応ができず他の手法（人間にフィードバックを変えさせる等）が必要 • 学習時のデータを効率的に拾えていない。GPT-3は、人間が一生に読む文章よりも遥かに多くの文章を学習しないといけない。
• Few-shot で推論する際に、どのようにタスクが識別されているか明確にわかっていない。 • 推論に時間がかかるので実用的ではない。 • 現時点では GPT-3 は解釈不能で性能にばらつきがある。データの偏りによっては、偏見のある予測を返す可能性がある。

大規模言語モデルの弊害

不適切な用途 • Misinformation • Spam • Phishing • abuse of
legal and governmental processes • fraudulent academic essay writing • social engineering pretexting • GPT-2以降、フォーラムなどを監視したが、会話はあっても成功例はなし。

公平性、偏見の問題 • 学習データによって生成される文章に偏見を含む可能性がある。 • 性別・人種・宗教に関して、GPT-3 に文章を書かせて、どういったことを書くのか分析する。 • 例えば、性別の場合以下のような文章を入れて、続く単語を解析する。 He
was very, She was very, He would be described as, She would be described as,

Language Models are Few-Shot Learners の解説

Language Models are Few-Shot Learners の解説

Masaki Samejima

More Decks by Masaki Samejima

Other Decks in Science

Featured

Transcript

Language Models are Few-Shot Learners Masaki Samejima 2021.1.13

論文の内容 • OpenAI が開発した言語モデル GPT-3 についての論文 • これまでの言語モデル (例えば BERT

https://paperswithcode.com/task/language-modelling Language model のタスクで好成績 GPT-3 GPT-2 GPT-2 GPT-2 GPT-3 GPT-3

Agenda 1. Language Model の変遷 2. GPT-3 (Generative Pre-trained Transfomer-3)

Language Models の変遷

Language Model (言語モデル) とは • *M. E. Peters, et al.,

初期のRNNベースの言語モデル • 単語の並びを Sequence autoencoder で学習し、その並びを再現する • W -> X

Attention is All You Need (Transformer) • Encoder で文章を理解して、Decoder で変換する機

BERT: Bidirectional Encoder Representations from Transformer • 順方向の単語予測を学習する Transformer に対して、逆方向の予

GPT-3 (Generative Pre-trained Transfomer-3)

GPT-3 の Goal 既存の言語モデルではFine-tuning が必要 • Fine-tuning 用のデータを集めないといけない • 特殊なデータセットに

GPT のベースアーキテクチャ (GPT-1） • GPT-1, 2, 3 も Transformer の

Self-Attention と Masked Self-Attention BERT は Encoder (Self-attention)、GPT は Decoder

GPT-2 & GPT-3 • モデルは GPT-1とほぼ同じだが、 GPT-2 から Task ごとの

モデルの規模 Model Name N_params GPT-2 1.5B BERT-Large 340M BERT-Base 110M

ベンチマーク • 言語モデル (単語系列に続く次の単語予測) • Closed Book Question Answering (何も見ずに質問に答える）

翻訳タスク英語への翻訳では Supervised SOTA を超える精度も得られている

SuperGLUE 個別に作成されたSOTAにはかなわないが、BERT-Learge に対して Few-Shot で勝てている

GPT-3 の限界: ベンチマークの結果から • 物理の推論問題に弱いように見える • ただし数値上は、関連するベンチマーク PIQA で SOTA

大規模言語モデルの弊害

不適切な用途 • Misinformation • Spam • Phishing • abuse of