Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM勉強会_vol.7_大規模言語モデルの進展.pdf
Search
Haruhisa Kimoto
November 26, 2023
0
22
LLM勉強会_vol.7_大規模言語モデルの進展.pdf
Haruhisa Kimoto
November 26, 2023
Tweet
Share
More Decks by Haruhisa Kimoto
See All by Haruhisa Kimoto
第1回統計勉強会.pdf
haru0805
0
18
第9回統計勉強会.pdf
haru0805
0
25
第1回統計モデル勉強会.pdf
haru0805
0
33
特徴量エンジニアリング_vol.1.pdf
haru0805
1
39
Featured
See All Featured
How to Ace a Technical Interview
jacobian
276
23k
Designing for humans not robots
tammielis
253
25k
The World Runs on Bad Software
bkeepers
PRO
68
11k
How GitHub (no longer) Works
holman
314
140k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
480
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
A designer walks into a library…
pauljervisheath
206
24k
Thoughts on Productivity
jonyablonski
69
4.7k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Transcript
AcademiX LLM勉強会 vol.7 大規模言語モデルの進展 木本晴久(Kimoto Haruhisa)
目次 1. 前回の復習 2. 4.4 指示チューニング 3. 4.5 人間のフィードバックからの強化学習 4. 4.6 ChatGPT
参考書籍 大規模言語モデル入門(山田育矢 監修/著)
目次 1. 前回の復習 2. 4.4 指示チューニング 3. 4.5 人間のフィードバックからの強化学習 4. 4.6 ChatGPT
前回の復習 アライメント ・人間や社会にとって有益で適切な挙動になるように大規模言語モデルを調整すること ・三つの基準(役立つこと、正直であること、無害であること)でアライメントを行うことが提唱さ れている。 InstructGPT ・・・GPT-3をアラインメントの手法で改善したもの
1. 前回の復習 2. 4.4 指示チューニング 3. 4.5 人間のフィードバックからの強化学習 4. 4.6 ChatGPT
指示チューニング 指示チューニングとは? 指示を含んだプロンプトと、理想的な出力テキストの組みで 構成されるデータセットを使ったファインチューニングによって大規模言語モデルの アライメントを行う方法。 ファインチューニングは、事前学習時と同様にプロンプトを与えて後続するテキストを予測する 形式で行われる
指示チューニング ◦データセットの再利用 指示を含んだプロンプトと、理想的な出力テキストの組みを作成するために、様々なタスクの データセットを変換する。 FLAN、Natural Instructions、Super-Natural Instructions、P3など 上記のデータセットを連結して新しい大規模データセットを作成し、モデルを学習させる試みも ある。 Flan
2022 Collection (FLAN + Super-Natural Instructions + P3 + 対話などのデータセット) → Flan-PaLM 、Flan-T5
指示チューニング ◦人手でデータセットを作成 InstructGPTは、GPT-3に対して、指示チューニングと強化学習の二つを適用した → 上記の指示チューニングでは、人手で作成したデータセットが使用されている
指示チューニング ◦指示チューニングの問題 指示チューニングは単純かつ効率的な方法! だが。。。 1. 大規模で高品質なデータセットを作成することは難しい! 人力の場合 → 高い人的コスト 再利用の場合 → 出力の多様性の確保、人的コスト 2. モデルの出力に対して、フィードバックを行えない
正誤判定 創造的な生成タスク 特定の知識が必要なもの(推論できないもの)
1. 前回の復習 2. 4.4 指示チューニング 3. 4.5 人間のフィードバックからの強化学習 4. 4.6 ChatGPT
人間のフィードバックからの強化学習 RLHF (reinoforcement learning from human feedback) 人間の好みに対して、直接的に最適化することでアライメントを行う。 InstructGPTの訓練 1.
事前学習 2. 指示チューニング 3. 報酬モデリング 4. 強化学習
人間のフィードバックからの強化学習 RLHFでは、 1. 指示チューニング済みモデルが出力したテキストに対して、人力で優劣のラベルをつける 2. 上記のデータセットを使用して、報酬(スカラー値)を予測する報酬モデルを訓練する。 3. 強化学習を使用して、報酬を最大化するようにファインチューニングする。 その結果、 •
人間にとって好まれるテキストを出力できるようになった • より真実を述べるようになった。 • 有害なテキストを出力しにくくなった。
人間のフィードバックからの強化学習 ◦報酬モデリング 生成されたテキストに対して、報酬を予測するモデルを学習するステップ → 報酬をそのまま使って学習するわけではない。 一つのプロンプトに対して、複数のテキストを生成し、それらを順位付けする。 訓練は、上位テキストと、下位テキストに対応するスコアの差を最大化するように行われる。
人間のフィードバックからの強化学習 ◦強化学習 現在の状態から報酬を最大化するような行動を選択するエージェントの方針を求める。 状態:プロンプト、生成済みのテキスト 行動:語彙からのトークンの選択 方針:モデルの出力するトークンの確率分布 報酬:生成されたテキストを入力した際の報酬モデルの出力 →プロンプトに対して、生成したテキストの期待値を最大化するパラメータを求めたい!
人間のフィードバックからの強化学習 ◦指示チューニングとRLHF RLHFのメリット • データセットの作成のコストが下がる ◦ テキストを生成するよりも、優劣を判断する方がラク • モデルの出力に対して、直接フィードバックを行うことができる ◦
報酬が定義できるため。 → 創造的なタスクにも良く効く RLHFのデメリット • 指示チューニングと比較すると、学習の難易度が高くなる ◦ テキストの中でのどのトークンがどのように報酬を左右したのかを特定して、学習を行う必要がある
1. 前回の復習 2. 4.4 指示チューニング 3. 4.5 人間のフィードバックからの強化学習 4. 4.6 ChatGPT
ChatGPT • OpneAIが2023年に発表 • 大規模言語モデルを対話形式で操作する方法を採用 • 指示チューニングとRLHFを組み合わせた方法で学習している • 対話形式に対応するためのデータセットを追加している ◦
ユーザとモデルの擬似的な会話を含んだデータセットを作成。(モデルの回答も作成) ◦ 作成したデータを使用して、指示チューニングを行う。 • 報酬モデルを訓練している ◦ 人間とモデルの会話を収集したデータセットを作成。(モデルの回答は実際のモデルから) ◦ メッセージの優劣を順位づけすることで、報酬モデルようのデータセットを作成。 ◦ 報酬モデルのデータセット構築・訓練と強化学習を数回繰り返す。 →最終的なモデルの作成