Reinforcement Fine-tuning 基礎〜実践まで
by
Morita
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
2025/12/11 クラウド事業本部 コンサルティング部 森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで
Slide 2
Slide 2 text
⾃⼰紹介 ● 所属 ○ クラウド事業本部 コンサルティング部 ● 好きなサービス ○ Amazon Bedrock ○ AWS Lambda ● re:Invent ○ 2回⽬の参加 ○ PCディスプレイ破損した😇
Slide 3
Slide 3 text
AWS re:Invent 2025 - Dr. Swami Sivasubramanian
Slide 4
Slide 4 text
Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として ● ベースモデルと⽐較して、平均66%の精度向上を実現 ● 深い機械学習(ML)の専⾨知識や、⼤規模なラベル付きデータセットは不要 ● エンドツーエンドで⾃動化されたファインチューニング ● 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現
Slide 5
Slide 5 text
Reinforcement?
Slide 6
Slide 6 text
Reinforcement Learning Reinforcement … Reinforcement Learning(強化学習) 強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」 ⾝近な例:ゲームをする場合
Slide 7
Slide 7 text
ゲームに対しての攻略⽅法がわからない ユーザが取れる⾏動: ● 攻撃する ● 移動する など → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement Learning
Slide 8
Slide 8 text
⾏動の結果がわかる 結果: ● 勝つ ● 負ける など この結果と⾏動を紐づけて考える 例:攻撃すると勝つ、移動すると負ける Reinforcement Learning
Slide 9
Slide 9 text
Reinforcement Learning ゲームの場合でも ● 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい 強化学習では ● 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる ● 結果も数値で表現するため、 ○ 良い結果の場合、プラス ○ 悪い結果の場合、マイナス ○ このように与える数値のことを報酬と呼びます
Slide 10
Slide 10 text
Reinforcement Fine-tuningについて
Slide 11
Slide 11 text
Reinforcement Fine-tuning Reinforcement Fine-tuning (RFT) 「強化学習」の仕組みを LLM の学習(Fine-tuning)に適⽤ 先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬 具体的には、モデルが⽣成した回答に対して、 「この回答は良い(報酬を与える)」「この回答は良くない(罰則を与える)」 というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
Slide 12
Slide 12 text
Reinforcement Fine-tuning
Slide 13
Slide 13 text
Bedrock Reinforcement Fine-tuningについて
Slide 14
Slide 14 text
Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 ● ソースモデル ● ⼊⼒データ ● 報酬関数
Slide 15
Slide 15 text
ソースモデル 現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/
Slide 16
Slide 16 text
⼊⼒データ ● OpenAI chat completions format(JSONL) ● モデル呼び出しログ
Slide 17
Slide 17 text
報酬関数 AI フィードバック ● AI(LLM)を⽤いて評価する⽅法 ● AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えるこ とで、回答をより柔軟に評価することが可能となる
Slide 18
Slide 18 text
報酬関数 AI フィードバック ● 選択できるAI(LLM) ○ Nova Premier ○ gpt-oss-120b ● プロンプトのサンプルの提供あり ○ Instruction following (Judge model training) ○ Summarization (Multi-turn dialogs) ○ Reasoning evaluation (CoT for specialized domains) ○ RAG faithfulness (Context-grounded Q&A)
Slide 19
Slide 19 text
報酬関数 検証可能な報酬 ● 報酬関数を事前にルールベースで定義 ● コード⽣成や数学的推論では、以下のように明確な正解が存在する ○ エラーなく実⾏できるか ○ 計算結果が合っているか ● このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、 より正確で効率的な学習が可能になります。
Slide 20
Slide 20 text
報酬関数 検証可能な報酬 ● AWS Lambdaで設定可能 ● Lambdaのサンプル提供あり ○ Format & constraints checker ○ Math reasoning
Slide 21
Slide 21 text
結論: 「⼊⼒データ」だけ準備すればOK
Slide 22
Slide 22 text
Bedrock Reinforcement Fine-tuningのジョブ実⾏ ● ジョブの時間単位 ● (おそらく)関連リソースの料⾦も発⽣する ○ 報酬関数(LLM, AWS Lambda) モデル推論 ● カスタムモデルオンデマンド ○ 利⽤したトークンベースの課⾦ ○ ホスティング費⽤は発⽣しない 料⾦
Slide 23
Slide 23 text
まとめ ● 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に ● ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり ● 作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる
Slide 24
Slide 24 text
No content