Reinforcement Fine-tuning 基礎〜実践まで
by
Morita
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
2025/12/11 クラウド事業本部 コンサルティング部 森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで
Slide 2
Slide 2 text
⾃⼰紹介 ● 所属 ○ クラウド事業本部 コンサルティング部 ● 好きなサービス ○ Amazon Bedrock ○ AWS Lambda ● re:Invent ○ 2回⽬の参加 ○ PCディスプレイ破損した😇
Slide 3
Slide 3 text
AWS re:Invent 2025 - Dr. Swami Sivasubramanian
Slide 4
Slide 4 text
Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として ● ベースモデルと⽐較して、平均66%の精度向上を実現 ● 深い機械学習(ML)の専⾨知識や、⼤規模なラベル付きデータセットは不要 ● エンドツーエンドで⾃動化されたファインチューニング ● 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現
Slide 5
Slide 5 text
Reinforcement?
Slide 6
Slide 6 text
Reinforcement Learning Reinforcement … Reinforcement Learning(強化学習) 強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」 ⾝近な例:ゲームをする場合
Slide 7
Slide 7 text
ゲームに対しての攻略⽅法がわからない ユーザが取れる⾏動: ● 攻撃する ● 移動する など → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement Learning
Slide 8
Slide 8 text
⾏動の結果がわかる 結果: ● 勝つ ● 負ける など この結果と⾏動を紐づけて考える 例:攻撃すると勝つ、移動すると負ける Reinforcement Learning
Slide 9
Slide 9 text
Reinforcement Learning ゲームの場合でも ● 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい 強化学習では ● 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる ● 結果も数値で表現するため、 ○ 良い結果の場合、プラス ○ 悪い結果の場合、マイナス ○ このように与える数値のことを報酬と呼びます
Slide 10
Slide 10 text
Reinforcement Fine-tuningについて
Slide 11
Slide 11 text
Reinforcement Fine-tuning Reinforcement Fine-tuning (RFT) 「強化学習」の仕組みを LLM の学習(Fine-tuning)に適⽤ 先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬 具体的には、モデルが⽣成した回答に対して、 「この回答は良い(報酬を与える)」「この回答は良くない(罰則を与える)」 というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
Slide 12
Slide 12 text
Reinforcement Fine-tuning
Slide 13
Slide 13 text
Bedrock Reinforcement Fine-tuningについて
Slide 14
Slide 14 text
Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 ● ソースモデル ● ⼊⼒データ ● 報酬関数
Slide 15
Slide 15 text
ソースモデル 現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/
Slide 16
Slide 16 text
⼊⼒データ ● OpenAI chat completions format(JSONL) ● モデル呼び出しログ
Slide 17
Slide 17 text
報酬関数 AI フィードバック ● AI(LLM)を⽤いて評価する⽅法 ● AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えるこ とで、回答をより柔軟に評価することが可能となる
Slide 18
Slide 18 text
報酬関数 AI フィードバック ● 選択できるAI(LLM) ○ Nova Premier ○ gpt-oss-120b ● プロンプトのサンプルの提供あり ○ Instruction following (Judge model training) ○ Summarization (Multi-turn dialogs) ○ Reasoning evaluation (CoT for specialized domains) ○ RAG faithfulness (Context-grounded Q&A)
Slide 19
Slide 19 text
報酬関数 検証可能な報酬 ● 報酬関数を事前にルールベースで定義 ● コード⽣成や数学的推論では、以下のように明確な正解が存在する ○ エラーなく実⾏できるか ○ 計算結果が合っているか ● このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、 より正確で効率的な学習が可能になります。
Slide 20
Slide 20 text
報酬関数 検証可能な報酬 ● AWS Lambdaで設定可能 ● Lambdaのサンプル提供あり ○ Format & constraints checker ○ Math reasoning
Slide 21
Slide 21 text
結論: 「⼊⼒データ」だけ準備すればOK
Slide 22
Slide 22 text
Bedrock Reinforcement Fine-tuningのジョブ実⾏ ● ジョブの時間単位 ● (おそらく)関連リソースの料⾦も発⽣する ○ 報酬関数(LLM, AWS Lambda) モデル推論 ● カスタムモデルオンデマンド ○ 利⽤したトークンベースの課⾦ ○ ホスティング費⽤は発⽣しない 料⾦
Slide 23
Slide 23 text
まとめ ● 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に ● ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり ● 作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる
Slide 24
Slide 24 text
No content