LLM勉強会_vol.7_大規模言語モデルの進展.pdf

AcademiX LLM勉強会　vol.7 大規模言語モデルの進展木本晴久（Kimoto Haruhisa）

目次 1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

参考書籍大規模言語モデル入門(山田育矢　監修/著)

目次 1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

前回の復習アライメント　・人間や社会にとって有益で適切な挙動になるように大規模言語モデルを調整すること・三つの基準（役立つこと、正直であること、無害であること）でアライメントを行うことが提唱されている。 InstructGPT ・・・GPT-3をアラインメントの手法で改善したもの

1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

指示チューニング指示チューニングとは？指示を含んだプロンプトと、理想的な出力テキストの組みで構成されるデータセットを使ったファインチューニングによって大規模言語モデルのアライメントを行う方法。ファインチューニングは、事前学習時と同様にプロンプトを与えて後続するテキストを予測する形式で行われる

指示チューニング ◦データセットの再利用　指示を含んだプロンプトと、理想的な出力テキストの組みを作成するために、様々なタスクのデータセットを変換する。　FLAN、Natural Instructions、Super-Natural Instructions、P3など上記のデータセットを連結して新しい大規模データセットを作成し、モデルを学習させる試みもある。 Flan
2022 Collection (FLAN + Super-Natural Instructions + P3 + 対話などのデータセット) →　Flan-PaLM 、Flan-T5

指示チューニング ◦人手でデータセットを作成 InstructGPTは、GPT-3に対して、指示チューニングと強化学習の二つを適用した →　上記の指示チューニングでは、人手で作成したデータセットが使用されている

指示チューニング ◦指示チューニングの問題指示チューニングは単純かつ効率的な方法！だが。。。 1. 大規模で高品質なデータセットを作成することは難しい！人力の場合　→　高い人的コスト再利用の場合　→　出力の多様性の確保、人的コスト 2. モデルの出力に対して、フィードバックを行えない
正誤判定創造的な生成タスク　特定の知識が必要なもの（推論できないもの）

人間のフィードバックからの強化学習 RLHF （reinoforcement learning from human feedback）人間の好みに対して、直接的に最適化することでアライメントを行う。 InstructGPTの訓練 1.
事前学習 2. 指示チューニング 3. 報酬モデリング 4. 強化学習

人間のフィードバックからの強化学習 RLHFでは、 1. 指示チューニング済みモデルが出力したテキストに対して、人力で優劣のラベルをつける 2. 上記のデータセットを使用して、報酬（スカラー値）を予測する報酬モデルを訓練する。 3. 強化学習を使用して、報酬を最大化するようにファインチューニングする。その結果、 •
人間にとって好まれるテキストを出力できるようになった • より真実を述べるようになった。 • 有害なテキストを出力しにくくなった。

人間のフィードバックからの強化学習 ◦報酬モデリング生成されたテキストに対して、報酬を予測するモデルを学習するステップ →　報酬をそのまま使って学習するわけではない。一つのプロンプトに対して、複数のテキストを生成し、それらを順位付けする。訓練は、上位テキストと、下位テキストに対応するスコアの差を最大化するように行われる。

人間のフィードバックからの強化学習 ◦強化学習現在の状態から報酬を最大化するような行動を選択するエージェントの方針を求める。状態：プロンプト、生成済みのテキスト行動：語彙からのトークンの選択方針：モデルの出力するトークンの確率分布報酬：生成されたテキストを入力した際の報酬モデルの出力 →プロンプトに対して、生成したテキストの期待値を最大化するパラメータを求めたい！

人間のフィードバックからの強化学習 ◦指示チューニングとRLHF RLHFのメリット • データセットの作成のコストが下がる ◦ テキストを生成するよりも、優劣を判断する方がラク • モデルの出力に対して、直接フィードバックを行うことができる ◦
報酬が定義できるため。　 →　創造的なタスクにも良く効く RLHFのデメリット • 指示チューニングと比較すると、学習の難易度が高くなる ◦ テキストの中でのどのトークンがどのように報酬を左右したのかを特定して、学習を行う必要がある

ChatGPT • OpneAIが2023年に発表 • 大規模言語モデルを対話形式で操作する方法を採用 • 指示チューニングとRLHFを組み合わせた方法で学習している • 対話形式に対応するためのデータセットを追加している ◦
ユーザとモデルの擬似的な会話を含んだデータセットを作成。（モデルの回答も作成） ◦ 作成したデータを使用して、指示チューニングを行う。 • 報酬モデルを訓練している ◦ 人間とモデルの会話を収集したデータセットを作成。（モデルの回答は実際のモデルから） ◦ メッセージの優劣を順位づけすることで、報酬モデルようのデータセットを作成。 ◦ 報酬モデルのデータセット構築・訓練と強化学習を数回繰り返す。 →最終的なモデルの作成

LLM勉強会_vol.7_大規模言語モデルの進展.pdf

LLM勉強会_vol.7_大規模言語モデルの進展.pdf

Haruhisa Kimoto

More Decks by Haruhisa Kimoto

Featured

Transcript

AcademiX LLM勉強会　vol.7 大規模言語モデルの進展木本晴久（Kimoto Haruhisa）

目次 1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

参考書籍大規模言語モデル入門(山田育矢　監修/著)

目次 1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

指示チューニング ◦人手でデータセットを作成 InstructGPTは、GPT-3に対して、指示チューニングと強化学習の二つを適用した →　上記の指示チューニングでは、人手で作成したデータセットが使用されている

1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

人間のフィードバックからの強化学習 RLHF （reinoforcement learning from human feedback）人間の好みに対して、直接的に最適化することでアライメントを行う。 InstructGPTの訓練 1.

1. 前回の復習 2. 4.4　指示チューニング 3. 4.5　人間のフィードバックからの強化学習 4. 4.6　ChatGPT

ChatGPT • OpneAIが2023年に発表 • 大規模言語モデルを対話形式で操作する方法を採用 • 指示チューニングとRLHFを組み合わせた方法で学習している • 対話形式に対応するためのデータセットを追加している ◦