Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

BERT-to-GPT Catch Up Survey

BERT-to-GPT Catch Up Survey

KARAKURI Inc.

April 05, 2023
Tweet

More Decks by KARAKURI Inc.

Other Decks in Research

Transcript

  1. KARAKURI Inc. All rights reserved. 2020年~2022年の自分 2020 2023 2021 2022

    ・検索サービス開発 ・情報検索分野面白い! ・NLPはどんどん大きな モデルへと進んでいて、 実務へ適用するのが難し くなってきているなぁ ・博士課程に専念 ・NLPはどんどん大きな モデルへと進んでいく... けれど実務ならまだまだ BERTでいいかなぁ ・博論と格闘 ・画像生成が何か凄いこ とになっている(NLPは まだ変わらず...?) ・博論終わったら最新の MLにキャッチアップし よう ChatGPT
  2. KARAKURI Inc. All rights reserved. 直近1年を受けて・・ • 画像処理分野で性能が飛躍的に向上、Stable Diffusionなどのサービス公開で一気に流行る •

    NLPはまだまだ…と思っていたら2022年11月にChatGPTが公開されて一気に流行る • 自分の知識はBERT以後1年くらいでストップしている浦島太郎状態・・・このままだと取り残される!
  3. KARAKURI Inc. All rights reserved. 活動・発表内容 2020年頃を最後にNLP界隈の論文をほぼ追わなくなった筆者が、最新のNLP情勢にキャッチアップするために NLP関連の文献(論文、公式ブログ)を30本読み、2023年3月時点の情勢をざっくりまとめる 1. ChatGPTに至るまでのGPT関連の歴史

    2. IT大企業の現状 【注意】 • 2023年3月30日時点の内容です • 網羅的に調べたものではありません、全体を見渡し、スタート地点に立つことを目標とした資料です ◦ より網羅的な情報が欲しい人向けの参考資料:NLPとVision-and-Languageの基礎・最新動向 (1) • 技術的な側面に着目してまとめており、ChatGPTでこんなことが出来る!とかにはあまり触れません • ところどころに筆者の記憶や憶測、感想コメントが含まれています ◦ 一意見として楽しんで読んで頂けると幸いです
  4. KARAKURI Inc. All rights reserved. Take home message • Attention

    Is All You Need[論文] (Vaswani et al., Google, 2017) は今も健在 • 問題の解き方がfine-tuningからプロンプト指示でのzero/few-shotに変化 • モデルの大規模化に加えて、LLMの好ましくない挙動を防ぐための研究が進展
  5. KARAKURI Inc. All rights reserved. GPT1-4のモデル概要 GPT GPT-2 GPT-3 GPT-4

    年 モデルサイズ 2018/6 2019/2 2020/5 2023/3 117M 1.5B 175B ? データサイズ 40GB WebText(自作) 570GB CommonCrawlなど ? 補足 ・BERTに似た fine-tuningで下流タ スクへ転移 ・言語生成型で各種 タスクを解いている ・文章生成能力が高 すぎたため、段階的 に公開された ・文章生成以外はま だ精度が低い ・多くのタスクで SOTAレベルを出せ るようになった ・InstructGPTから 導入されたRLHFが学 習に含まれる ・画像も入力として 受け付けるように なった ・NLPタスクだけで なく人間が受けるテ ストでも高精度 5GB BookCorpus
  6. KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報① GPT-1 (Radford et al.,

    OpenAI, 2018/6 [論文]) • 時系列としてはELMoの後、BERTの前に発表された • BERTに全て持っていかれて個人的には印象が薄い GPT-2 (Radford et al., OpenAI, 2019/2 [論文]) • 世間はBERTの分析、サービスへの組み込みで夢中だった記憶 • pre-training → fine-tuningで下流タスクへ応用する世の流れの中、この時点で今のGPTと同じ 生成型モデルでタスクを解いているのは興味深い • 文章生成能力が高いことを危惧し、モデルの悪用に伴うリスクについての考察が論文内に含まれる ◦ 昨今のLLMと同じ課題感をこの時点で持っていた ◦ リスク対策として段階的にサイズを上げてモデル公開した ▪ [初回公開ブログ], [6ヶ月後公開ブログ], [最終リリース時ブログ]
  7. KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報② GPT-3 (Brown et al.,

    OpenAI, 2020/5 [論文]) • 少し前にScaling Lawが発表されており、 MLモデルの大規模化が加速していた印象 • fine-tuningの方向に流れず、プロンプトの 生成型を貫いたのは偉い • 文章生成能力だけでなくNLPタスクの性能も向上しており、より公開に慎重になっている ◦ 特にバイアス、公平性などをどう制御するかが大きな課題だったと思われる → InstructGPTによる解決 (2022/3) GPT-4 (OpenAI, 2023/3 [論文]) • ChatGPTに世間が湧いている中、追い打ちをかけるようなGPT-4の登場 • 性能面へ注目がいきがちだが、論文の冒頭はScaling-lawがまだ継続していることの主張が強め ◦ Scaling-lawなどの後ろ盾が無いと学習に踏み切れないほどのコスト規模なのではと推測している
  8. KARAKURI Inc. All rights reserved. ChatGPTに関わる技術など RLHF (Christiano et al.,

    OpenAI & DeepMind, 2017/6 [論文]) • Reinforcement Learning from Human Feedback • 強化学習の文脈において報酬関数を定義しづらい場合に、 人間の判断を反映させて学習させる手法 • データの集めやすさにフォーカスしている InstructGPT (Ouyang et al., OpenAI, 2022/3 [論文]) • GPT-3にRLHFを適用して、ユーザーへの親和性、事実性、悪意のある発言などの課題解決に取り組む • OpenAI API Playgroundに公開したGPT-3から得られたデータを学習データに活用 ◦ AIモデルの改善サイクルを体現していて凄い ChatGPT (2022/11 [サービスページ]) • より新しいデータとプログラミングコードを学習データに加えて学習させた GPT-3.5をベースに、InstructGPTと似たRLHFを適用して生まれたモデルを使ったサービス
  9. KARAKURI Inc. All rights reserved. ココが凄い • 生成型モデルへのこだわり:GPT-2の時点から一貫して取り組み続けている • LLMの悪影響への向き合い:いずれ訪れるLLMの悪影響という課題をGPT-2の時点で認識し、重要な研

    究の1つとして取り組んできた • 自分達の研究の活用:LLMの悪影響部分を解決するために、5年前のRLHFを生かしている • 非エンジニアへの波及:ChatGPTとして誰でも気軽に使える形で提供した • 継続的なAI開発サイクル:モデルのデプロイ、データ収集、課題の解決という理想的なAI開発サイクル を継続して回している
  10. KARAKURI Inc. All rights reserved. CoT (Wei et al., Google,

    2022/1 [論文]) • LLMの推論能力を引き出すアドホックなプロンプトテクニック • 解答に至る思考過程をfew-shotのプロンプト内に含める • 算数タスクなどで精度が飛躍的に向上
  11. KARAKURI Inc. All rights reserved. Scaling Law (Kaplan et al.,

    OpenAI, 2020/1 [論文]) • Transformerの性能がべき乗則に従うことを実験的に示した • GPT-2 (2018/1) → Scaling Law (2020/1) → GPT-3 (2020/5) という時系列になっており、 より大規模なモデルへと進む後ろ盾になっている ◦ その後 GPT-3 → Scaling Law for 他ドメイン (2020/10) → GPT-4 (2023/3) と続いた
  12. KARAKURI Inc. All rights reserved. IT大企業が保持するモデル・サービス • OpenAI:ChatGPT, OpenAI API

    Playground • Microsoft:Bing, GitHub Copilot • Google:LaMDA, PaLM, Bard(未公開) • Amazon:Alexa TM • Meta:OPT, LLaMA OpenAI周りは前の節で見てきたので、ここではOpenAI, Microsoft以外について見ていく
  13. KARAKURI Inc. All rights reserved. Google LaMDA (Thopplian et al.,

    Google, 2022/1 [論文]) • 137Bのdecoder-only Transformerモデル • 対話に焦点を当てており、事前学習も対話データを中心に集めている • LLMの悪影響改善にあたって、教師有り学習の方向で制御している ◦ RLを使ったInstructGPTと対照的、データを集めるコストはInstructGPTの方が軽そう • モデルの処理の中で検索システム、簡単な計算機、翻訳機へ外部アクセス出来るようにしている • サービスへの組み込みを見据えている感じが強め → Bard(未公開)のベースとなる予定 [公式ブログ] PaLM (Chowdhery et al., Google , 2022/4 [論文]) • Pathways[公式ブログ] というGoogleの中長期的な汎用AIを目指す取り組みの第一歩 • 540Bのdecoder-only Transformerモデル • Pathwaysの通過点でもあるが、LLMの研究という側面も強い • 先行研究でPathways systemを開発、インフラ方向の強みが見える
  14. KARAKURI Inc. All rights reserved. Amazon AlexaTM 20B (Soltan et

    al., Amazon, 2022/8 [論文]) • 珍しいencoder-decoderのSeq2Seqモデル ◦ in-contextなfew-shot学習が出来るSeq2Seqモデルとして(当時)最大 • Seq2Seqの恩恵か、要約や翻訳タスクでGPT-3やPaLMに勝っている ◦ Alexaへ応用した場合、多言語での性能が良いのは強みになりそう • SageMakerで簡単にデプロイ出来る [公式チュートリアル]
  15. KARAKURI Inc. All rights reserved. Meta OPT (Zhang et al.,

    Meta, 2022/5 [論文]) • NLP分野の研究発展を目的とし、GPT-3などと同等のサイズのLLMを公開 • モデル構造はGPT-3に従い125Mから175Bモデルまで公開(175Bモデルは要リクエスト) • 性能もGPT-3と同等 LLaMA (Touvron et al., Meta, 2023/2 [論文]) • 分野の発展に貢献することを目指し、全てのモデルを公開している ◦ 学習データも公開データのみ使用 • モデルは6.7B - 65.2Bのdecoder-only Transformerモデル • GPT-3やPaLMにいくつかのタスクで勝っている ◦ モデルの工夫によるのか、データセットの違いによるのかは不明 • 7BモデルをベースにInstructionのfine-tuningが施されたAlpacaがスタンフォード大から公開された
  16. KARAKURI Inc. All rights reserved. 各企業まとめ • GoogleはPathwaysという大きな方向性が有り、MLモデルだけでなくインフラも 並行して発展させている強みがある •

    Amazonはseq2seqという独自性があったりAlexaやAWSとの親和性が高い • Metaはモデルをオープンにする方向性でNLP分野へ貢献している