Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BERT-to-GPT Catch Up Survey
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
KARAKURI Inc.
April 05, 2023
Research
2.3k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
BERT-to-GPT Catch Up Survey
KARAKURI Inc.
April 05, 2023
More Decks by KARAKURI Inc.
See All by KARAKURI Inc.
LLM Compute Infrastructure Overview
karakurist
2
1.4k
W&B Fully Connected 2025 Day1 Workshop - Karakuri
karakurist
0
120
boke-generator
karakurist
2
640
user-behaviour-vol1
karakurist
3
470
user-behaviour-vol2
karakurist
4
920
computer-vision-survey
karakurist
3
550
nlp-survey
karakurist
23
3.8k
survey-imbalanced-learning
karakurist
7
2k
Other Decks in Research
See All in Research
適応的スパムフィルタのための軽量な類似メッセージカウンタ / jsai2026-adaptive-spam-filter
monochromegane
0
2.3k
Harness Engineering and Al Agent
kzinmr
3
1.6k
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
780
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.8k
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
Fukui Shibiten 39 - AI Art
butchi
0
120
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
470
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
510
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
510
2026年度 生成AI を活用した論文執筆ガイド/ワークショップ / 2026 Academic Year Guide to Writing Papers Using Generative AI - Workshop
ks91
PRO
0
170
Featured
See All Featured
Balancing Empowerment & Direction
lara
6
1.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Navigating Weather and Climate Data
rabernat
0
210
The Mindset for Success: Future Career Progression
greggifford
PRO
0
350
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Transcript
KARAKURI R&Dチーム 大日方 孝輝 NLPサーベイ NLP界の浦島太郎 再び現代NLPのスタートラインへ 公開日:2023/4/5
KARAKURI Inc. All rights reserved. 2018~2019年のNLP界隈 https://github.com/thunlp/PLMpapers
KARAKURI Inc. All rights reserved. 2020年~2022年の自分 2020 2023 2021 2022
・検索サービス開発 ・情報検索分野面白い! ・NLPはどんどん大きな モデルへと進んでいて、 実務へ適用するのが難し くなってきているなぁ ・博士課程に専念 ・NLPはどんどん大きな モデルへと進んでいく... けれど実務ならまだまだ BERTでいいかなぁ ・博論と格闘 ・画像生成が何か凄いこ とになっている(NLPは まだ変わらず...?) ・博論終わったら最新の MLにキャッチアップし よう ChatGPT
KARAKURI Inc. All rights reserved. 直近1年を受けて・・ • 画像処理分野で性能が飛躍的に向上、Stable Diffusionなどのサービス公開で一気に流行る •
NLPはまだまだ…と思っていたら2022年11月にChatGPTが公開されて一気に流行る • 自分の知識はBERT以後1年くらいでストップしている浦島太郎状態・・・このままだと取り残される!
KARAKURI Inc. All rights reserved. 活動・発表内容 2020年頃を最後にNLP界隈の論文をほぼ追わなくなった筆者が、最新のNLP情勢にキャッチアップするために NLP関連の文献(論文、公式ブログ)を30本読み、2023年3月時点の情勢をざっくりまとめる 1. ChatGPTに至るまでのGPT関連の歴史
2. IT大企業の現状 【注意】 • 2023年3月30日時点の内容です • 網羅的に調べたものではありません、全体を見渡し、スタート地点に立つことを目標とした資料です ◦ より網羅的な情報が欲しい人向けの参考資料:NLPとVision-and-Languageの基礎・最新動向 (1) • 技術的な側面に着目してまとめており、ChatGPTでこんなことが出来る!とかにはあまり触れません • ところどころに筆者の記憶や憶測、感想コメントが含まれています ◦ 一意見として楽しんで読んで頂けると幸いです
KARAKURI Inc. All rights reserved. Take home message • Attention
Is All You Need[論文] (Vaswani et al., Google, 2017) は今も健在 • 問題の解き方がfine-tuningからプロンプト指示でのzero/few-shotに変化 • モデルの大規模化に加えて、LLMの好ましくない挙動を防ぐための研究が進展
ChatGPTに至るまでのGPT関連の歴史
KARAKURI Inc. All rights reserved. GPT1-4のモデル概要 GPT GPT-2 GPT-3 GPT-4
年 モデルサイズ 2018/6 2019/2 2020/5 2023/3 117M 1.5B 175B ? データサイズ 40GB WebText(自作) 570GB CommonCrawlなど ? 補足 ・BERTに似た fine-tuningで下流タ スクへ転移 ・言語生成型で各種 タスクを解いている ・文章生成能力が高 すぎたため、段階的 に公開された ・文章生成以外はま だ精度が低い ・多くのタスクで SOTAレベルを出せ るようになった ・InstructGPTから 導入されたRLHFが学 習に含まれる ・画像も入力として 受け付けるように なった ・NLPタスクだけで なく人間が受けるテ ストでも高精度 5GB BookCorpus
KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報① GPT-1 (Radford et al.,
OpenAI, 2018/6 [論文]) • 時系列としてはELMoの後、BERTの前に発表された • BERTに全て持っていかれて個人的には印象が薄い GPT-2 (Radford et al., OpenAI, 2019/2 [論文]) • 世間はBERTの分析、サービスへの組み込みで夢中だった記憶 • pre-training → fine-tuningで下流タスクへ応用する世の流れの中、この時点で今のGPTと同じ 生成型モデルでタスクを解いているのは興味深い • 文章生成能力が高いことを危惧し、モデルの悪用に伴うリスクについての考察が論文内に含まれる ◦ 昨今のLLMと同じ課題感をこの時点で持っていた ◦ リスク対策として段階的にサイズを上げてモデル公開した ▪ [初回公開ブログ], [6ヶ月後公開ブログ], [最終リリース時ブログ]
KARAKURI Inc. All rights reserved. GPT1-4の研究に関する周辺情報② GPT-3 (Brown et al.,
OpenAI, 2020/5 [論文]) • 少し前にScaling Lawが発表されており、 MLモデルの大規模化が加速していた印象 • fine-tuningの方向に流れず、プロンプトの 生成型を貫いたのは偉い • 文章生成能力だけでなくNLPタスクの性能も向上しており、より公開に慎重になっている ◦ 特にバイアス、公平性などをどう制御するかが大きな課題だったと思われる → InstructGPTによる解決 (2022/3) GPT-4 (OpenAI, 2023/3 [論文]) • ChatGPTに世間が湧いている中、追い打ちをかけるようなGPT-4の登場 • 性能面へ注目がいきがちだが、論文の冒頭はScaling-lawがまだ継続していることの主張が強め ◦ Scaling-lawなどの後ろ盾が無いと学習に踏み切れないほどのコスト規模なのではと推測している
KARAKURI Inc. All rights reserved. ChatGPTに関わる技術など RLHF (Christiano et al.,
OpenAI & DeepMind, 2017/6 [論文]) • Reinforcement Learning from Human Feedback • 強化学習の文脈において報酬関数を定義しづらい場合に、 人間の判断を反映させて学習させる手法 • データの集めやすさにフォーカスしている InstructGPT (Ouyang et al., OpenAI, 2022/3 [論文]) • GPT-3にRLHFを適用して、ユーザーへの親和性、事実性、悪意のある発言などの課題解決に取り組む • OpenAI API Playgroundに公開したGPT-3から得られたデータを学習データに活用 ◦ AIモデルの改善サイクルを体現していて凄い ChatGPT (2022/11 [サービスページ]) • より新しいデータとプログラミングコードを学習データに加えて学習させた GPT-3.5をベースに、InstructGPTと似たRLHFを適用して生まれたモデルを使ったサービス
KARAKURI Inc. All rights reserved. ココが凄い • 生成型モデルへのこだわり:GPT-2の時点から一貫して取り組み続けている • LLMの悪影響への向き合い:いずれ訪れるLLMの悪影響という課題をGPT-2の時点で認識し、重要な研
究の1つとして取り組んできた • 自分達の研究の活用:LLMの悪影響部分を解決するために、5年前のRLHFを生かしている • 非エンジニアへの波及:ChatGPTとして誰でも気軽に使える形で提供した • 継続的なAI開発サイクル:モデルのデプロイ、データ収集、課題の解決という理想的なAI開発サイクル を継続して回している
KARAKURI Inc. All rights reserved. Coffee Break ☕
KARAKURI Inc. All rights reserved. CoT (Wei et al., Google,
2022/1 [論文]) • LLMの推論能力を引き出すアドホックなプロンプトテクニック • 解答に至る思考過程をfew-shotのプロンプト内に含める • 算数タスクなどで精度が飛躍的に向上
KARAKURI Inc. All rights reserved. Scaling Law (Kaplan et al.,
OpenAI, 2020/1 [論文]) • Transformerの性能がべき乗則に従うことを実験的に示した • GPT-2 (2018/1) → Scaling Law (2020/1) → GPT-3 (2020/5) という時系列になっており、 より大規模なモデルへと進む後ろ盾になっている ◦ その後 GPT-3 → Scaling Law for 他ドメイン (2020/10) → GPT-4 (2023/3) と続いた
IT大企業の現状
KARAKURI Inc. All rights reserved. IT大企業が保持するモデル・サービス • OpenAI:ChatGPT, OpenAI API
Playground • Microsoft:Bing, GitHub Copilot • Google:LaMDA, PaLM, Bard(未公開) • Amazon:Alexa TM • Meta:OPT, LLaMA OpenAI周りは前の節で見てきたので、ここではOpenAI, Microsoft以外について見ていく
KARAKURI Inc. All rights reserved. Google LaMDA (Thopplian et al.,
Google, 2022/1 [論文]) • 137Bのdecoder-only Transformerモデル • 対話に焦点を当てており、事前学習も対話データを中心に集めている • LLMの悪影響改善にあたって、教師有り学習の方向で制御している ◦ RLを使ったInstructGPTと対照的、データを集めるコストはInstructGPTの方が軽そう • モデルの処理の中で検索システム、簡単な計算機、翻訳機へ外部アクセス出来るようにしている • サービスへの組み込みを見据えている感じが強め → Bard(未公開)のベースとなる予定 [公式ブログ] PaLM (Chowdhery et al., Google , 2022/4 [論文]) • Pathways[公式ブログ] というGoogleの中長期的な汎用AIを目指す取り組みの第一歩 • 540Bのdecoder-only Transformerモデル • Pathwaysの通過点でもあるが、LLMの研究という側面も強い • 先行研究でPathways systemを開発、インフラ方向の強みが見える
KARAKURI Inc. All rights reserved. Amazon AlexaTM 20B (Soltan et
al., Amazon, 2022/8 [論文]) • 珍しいencoder-decoderのSeq2Seqモデル ◦ in-contextなfew-shot学習が出来るSeq2Seqモデルとして(当時)最大 • Seq2Seqの恩恵か、要約や翻訳タスクでGPT-3やPaLMに勝っている ◦ Alexaへ応用した場合、多言語での性能が良いのは強みになりそう • SageMakerで簡単にデプロイ出来る [公式チュートリアル]
KARAKURI Inc. All rights reserved. Meta OPT (Zhang et al.,
Meta, 2022/5 [論文]) • NLP分野の研究発展を目的とし、GPT-3などと同等のサイズのLLMを公開 • モデル構造はGPT-3に従い125Mから175Bモデルまで公開(175Bモデルは要リクエスト) • 性能もGPT-3と同等 LLaMA (Touvron et al., Meta, 2023/2 [論文]) • 分野の発展に貢献することを目指し、全てのモデルを公開している ◦ 学習データも公開データのみ使用 • モデルは6.7B - 65.2Bのdecoder-only Transformerモデル • GPT-3やPaLMにいくつかのタスクで勝っている ◦ モデルの工夫によるのか、データセットの違いによるのかは不明 • 7BモデルをベースにInstructionのfine-tuningが施されたAlpacaがスタンフォード大から公開された
KARAKURI Inc. All rights reserved. 各企業まとめ • GoogleはPathwaysという大きな方向性が有り、MLモデルだけでなくインフラも 並行して発展させている強みがある •
Amazonはseq2seqという独自性があったりAlexaやAWSとの親和性が高い • Metaはモデルをオープンにする方向性でNLP分野へ貢献している