BERT-to-GPT Catch Up Survey

Slide 1

Slide 1 text

KARAKURI R&Dチーム大日方孝輝 NLPサーベイ NLP界の浦島太郎再び現代NLPのスタートラインへ公開日：2023/4/5 

Slide 2

Slide 2 text

Slide 3

Slide 3 text

KARAKURI Inc. All rights reserved. 2020年~2022年の自分 2020 2023 2021 2022 ・検索サービス開発・情報検索分野面白い！・NLPはどんどん大きなモデルへと進んでいて、実務へ適用するのが難しくなってきているなぁ・博士課程に専念・NLPはどんどん大きなモデルへと進んでいく... けれど実務ならまだまだ BERTでいいかなぁ・博論と格闘・画像生成が何か凄いことになっている（NLPはまだ変わらず...？）・博論終わったら最新の MLにキャッチアップしよう ChatGPT

Slide 4

Slide 4 text

Slide 5

Slide 5 text

KARAKURI Inc. All rights reserved. 活動・発表内容 2020年頃を最後にNLP界隈の論文をほぼ追わなくなった筆者が、最新のNLP情勢にキャッチアップするために NLP関連の文献（論文、公式ブログ）を30本読み、2023年3月時点の情勢をざっくりまとめる 1. ChatGPTに至るまでのGPT関連の歴史 2. IT大企業の現状【注意】 ● 2023年3月30日時点の内容です ● 網羅的に調べたものではありません、全体を見渡し、スタート地点に立つことを目標とした資料です ○ より網羅的な情報が欲しい人向けの参考資料：NLPとVision-and-Languageの基礎・最新動向 (1) ● 技術的な側面に着目してまとめており、ChatGPTでこんなことが出来る！とかにはあまり触れません ● ところどころに筆者の記憶や憶測、感想コメントが含まれています ○ 一意見として楽しんで読んで頂けると幸いです

Slide 6

Slide 6 text

KARAKURI Inc. All rights reserved. Take home message ● Attention Is All You Need[論文] (Vaswani et al., Google, 2017) は今も健在 ● 問題の解き方がﬁne-tuningからプロンプト指示でのzero/few-shotに変化 ● モデルの大規模化に加えて、LLMの好ましくない挙動を防ぐための研究が進展

Slide 7

Slide 7 text

ChatGPTに至るまでのGPT関連の歴史

Slide 8

Slide 8 text

KARAKURI Inc. All rights reserved. GPT1-4のモデル概要 GPT GPT-2 GPT-3 GPT-4 年モデルサイズ 2018/6 2019/2 2020/5 2023/3 117M 1.5B 175B ? データサイズ 40GB WebText(自作) 570GB CommonCrawlなど ? 補足・BERTに似た ﬁne-tuningで下流タスクへ転移・言語生成型で各種タスクを解いている・文章生成能力が高すぎたため、段階的に公開された・文章生成以外はまだ精度が低い・多くのタスクで SOTAレベルを出せるようになった・InstructGPTから導入されたRLHFが学習に含まれる・画像も入力として受け付けるようになった・NLPタスクだけでなく人間が受けるテストでも高精度 5GB BookCorpus

Slide 9

Slide 9 text

KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報① GPT-1 (Radford et al., OpenAI, 2018/6 [論文]) ● 時系列としてはELMoの後、BERTの前に発表された ● BERTに全て持っていかれて個人的には印象が薄い GPT-2 (Radford et al., OpenAI, 2019/2 [論文]) ● 世間はBERTの分析、サービスへの組み込みで夢中だった記憶 ● pre-training → ﬁne-tuningで下流タスクへ応用する世の流れの中、この時点で今のGPTと同じ生成型モデルでタスクを解いているのは興味深い ● 文章生成能力が高いことを危惧し、モデルの悪用に伴うリスクについての考察が論文内に含まれる ○ 昨今のLLMと同じ課題感をこの時点で持っていた ○ リスク対策として段階的にサイズを上げてモデル公開した ■ [初回公開ブログ], [6ヶ月後公開ブログ], [最終リリース時ブログ]

Slide 10

Slide 10 text

KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報② GPT-3 (Brown et al., OpenAI, 2020/5 [論文]) ● 少し前にScaling Lawが発表されており、 MLモデルの大規模化が加速していた印象 ● ﬁne-tuningの方向に流れず、プロンプトの生成型を貫いたのは偉い ● 文章生成能力だけでなくNLPタスクの性能も向上しており、より公開に慎重になっている ○ 特にバイアス、公平性などをどう制御するかが大きな課題だったと思われる → InstructGPTによる解決 (2022/3) GPT-4 (OpenAI, 2023/3 [論文]) ● ChatGPTに世間が湧いている中、追い打ちをかけるようなGPT-4の登場 ● 性能面へ注目がいきがちだが、論文の冒頭はScaling-lawがまだ継続していることの主張が強め ○ Scaling-lawなどの後ろ盾が無いと学習に踏み切れないほどのコスト規模なのではと推測している

Slide 11

Slide 11 text

KARAKURI Inc. All rights reserved. ChatGPTに関わる技術など RLHF (Christiano et al., OpenAI & DeepMind, 2017/6 [論文]) ● Reinforcement Learning from Human Feedback ● 強化学習の文脈において報酬関数を定義しづらい場合に、人間の判断を反映させて学習させる手法 ● データの集めやすさにフォーカスしている InstructGPT (Ouyang et al., OpenAI, 2022/3 [論文]) ● GPT-3にRLHFを適用して、ユーザーへの親和性、事実性、悪意のある発言などの課題解決に取り組む ● OpenAI API Playgroundに公開したGPT-3から得られたデータを学習データに活用 ○ AIモデルの改善サイクルを体現していて凄い ChatGPT (2022/11 [サービスページ]) ● より新しいデータとプログラミングコードを学習データに加えて学習させた GPT-3.5をベースに、InstructGPTと似たRLHFを適用して生まれたモデルを使ったサービス

Slide 12

Slide 12 text

KARAKURI Inc. All rights reserved. ココが凄い ● 生成型モデルへのこだわり：GPT-2の時点から一貫して取り組み続けている ● LLMの悪影響への向き合い：いずれ訪れるLLMの悪影響という課題をGPT-2の時点で認識し、重要な研究の1つとして取り組んできた ● 自分達の研究の活用：LLMの悪影響部分を解決するために、5年前のRLHFを生かしている ● 非エンジニアへの波及：ChatGPTとして誰でも気軽に使える形で提供した ● 継続的なAI開発サイクル：モデルのデプロイ、データ収集、課題の解決という理想的なAI開発サイクルを継続して回している

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

KARAKURI Inc. All rights reserved. Scaling Law (Kaplan et al., OpenAI, 2020/1 [論文]) ● Transformerの性能がべき乗則に従うことを実験的に示した ● GPT-2 (2018/1) → Scaling Law (2020/1) → GPT-3 (2020/5) という時系列になっており、より大規模なモデルへと進む後ろ盾になっている ○ その後 GPT-3 → Scaling Law for 他ドメイン (2020/10) → GPT-4 (2023/3) と続いた

Slide 16

Slide 16 text

IT大企業の現状

Slide 17

Slide 17 text

KARAKURI Inc. All rights reserved. IT大企業が保持するモデル・サービス ● OpenAI：ChatGPT, OpenAI API Playground ● Microsoft：Bing, GitHub Copilot ● Google：LaMDA, PaLM, Bard(未公開) ● Amazon：Alexa TM ● Meta：OPT, LLaMA OpenAI周りは前の節で見てきたので、ここではOpenAI, Microsoft以外について見ていく

Slide 18

Slide 18 text

KARAKURI Inc. All rights reserved. Google LaMDA (Thopplian et al., Google, 2022/1 [論文]) ● 137Bのdecoder-only Transformerモデル ● 対話に焦点を当てており、事前学習も対話データを中心に集めている ● LLMの悪影響改善にあたって、教師有り学習の方向で制御している ○ RLを使ったInstructGPTと対照的、データを集めるコストはInstructGPTの方が軽そう ● モデルの処理の中で検索システム、簡単な計算機、翻訳機へ外部アクセス出来るようにしている ● サービスへの組み込みを見据えている感じが強め → Bard(未公開)のベースとなる予定 [公式ブログ] PaLM (Chowdhery et al., Google , 2022/4 [論文]) ● Pathways[公式ブログ] というGoogleの中長期的な汎用AIを目指す取り組みの第一歩 ● 540Bのdecoder-only Transformerモデル ● Pathwaysの通過点でもあるが、LLMの研究という側面も強い ● 先行研究でPathways systemを開発、インフラ方向の強みが見える

Slide 19

Slide 19 text

KARAKURI Inc. All rights reserved. Amazon AlexaTM 20B (Soltan et al., Amazon, 2022/8 [論文]) ● 珍しいencoder-decoderのSeq2Seqモデル ○ in-contextなfew-shot学習が出来るSeq2Seqモデルとして（当時）最大 ● Seq2Seqの恩恵か、要約や翻訳タスクでGPT-3やPaLMに勝っている ○ Alexaへ応用した場合、多言語での性能が良いのは強みになりそう ● SageMakerで簡単にデプロイ出来る [公式チュートリアル]

Slide 20

Slide 20 text

KARAKURI Inc. All rights reserved. Meta OPT (Zhang et al., Meta, 2022/5 [論文]) ● NLP分野の研究発展を目的とし、GPT-3などと同等のサイズのLLMを公開 ● モデル構造はGPT-3に従い125Mから175Bモデルまで公開（175Bモデルは要リクエスト） ● 性能もGPT-3と同等 LLaMA (Touvron et al., Meta, 2023/2 [論文]) ● 分野の発展に貢献することを目指し、全てのモデルを公開している ○ 学習データも公開データのみ使用 ● モデルは6.7B - 65.2Bのdecoder-only Transformerモデル ● GPT-3やPaLMにいくつかのタスクで勝っている ○ モデルの工夫によるのか、データセットの違いによるのかは不明 ● 7BモデルをベースにInstructionのﬁne-tuningが施されたAlpacaがスタンフォード大から公開された