Reinforcement Fine-tuning 基礎〜実践まで

2025/12/11 クラウド事業本部コンサルティング部森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで

⾃⼰紹介 • 所属 ◦ クラウド事業本部コンサルティング部 • 好きなサービス ◦ Amazon
Bedrock ◦ AWS Lambda • re:Invent ◦ 2回⽬の参加 ◦ PCディスプレイ破損した😇

AWS re:Invent 2025 - Dr. Swami Sivasubramanian

Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •
深い機械学習（ML）の専⾨知識や、⼤規模なラベル付きデータセットは不要 • エンドツーエンドで⾃動化されたファインチューニング • 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現

Reinforcement？

Reinforcement Learning Reinforcement … Reinforcement Learning（強化学習）強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」⾝近な例：ゲームをする場合

ゲームに対しての攻略⽅法がわからないユーザが取れる⾏動： • 攻撃する • 移動するなど → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement
Learning

⾏動の結果がわかる結果： • 勝つ • 負けるなどこの結果と⾏動を紐づけて考える例：攻撃すると勝つ、移動すると負ける Reinforcement
Learning

Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる
• 結果も数値で表現するため、 ◦ 良い結果の場合、プラス ◦ 悪い結果の場合、マイナス ◦ このように与える数値のことを報酬と呼びます

Reinforcement Fine-tuningについて

Reinforcement Fine-tuning Reinforcement Fine-tuning （RFT）「強化学習」の仕組みを LLM の学習（Fine-tuning）に適⽤先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬
具体的には、モデルが⽣成した回答に対して、「この回答は良い（報酬を与える）」「この回答は良くない（罰則を与える）」というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能

Reinforcement Fine-tuning

Bedrock Reinforcement Fine-tuningについて

Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 • ソースモデル •
⼊⼒データ • 報酬関数

ソースモデル現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/

⼊⼒データ • OpenAI chat completions format（JSONL） • モデル呼び出しログ

報酬関数 AI フィードバック • AI（LLM）を⽤いて評価する⽅法 • AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えることで、回答をより柔軟に評価することが可能となる

報酬関数 AI フィードバック • 選択できるAI（LLM） ◦ Nova Premier ◦ gpt-oss-120b
• プロンプトのサンプルの提供あり ◦ Instruction following (Judge model training) ◦ Summarization (Multi-turn dialogs) ◦ Reasoning evaluation (CoT for specialized domains) ◦ RAG faithfulness (Context-grounded Q&A)

報酬関数検証可能な報酬 • 報酬関数を事前にルールベースで定義 • コード⽣成や数学的推論では、以下のように明確な正解が存在する ◦ エラーなく実⾏できるか ◦ 計算結果が合っているか
• このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、より正確で効率的な学習が可能になります。

報酬関数検証可能な報酬 • AWS Lambdaで設定可能 • Lambdaのサンプル提供あり ◦ Format &
constraints checker ◦ Math reasoning

結論：「⼊⼒データ」だけ準備すればOK

Bedrock Reinforcement Fine-tuningのジョブ実⾏ • ジョブの時間単位 • （おそらく）関連リソースの料⾦も発⽣する ◦ 報酬関数（LLM, AWS
Lambda）モデル推論 • カスタムモデルオンデマンド ◦ 利⽤したトークンベースの課⾦ ◦ ホスティング費⽤は発⽣しない料⾦

まとめ • 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に • ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり •
作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる

Reinforcement Fine-tuning 基礎〜実践まで

Reinforcement Fine-tuning 基礎〜実践まで

Morita

More Decks by Morita

Other Decks in Technology

Featured

Transcript

2025/12/11 クラウド事業本部コンサルティング部森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで

⾃⼰紹介 • 所属 ◦ クラウド事業本部コンサルティング部 • 好きなサービス ◦ Amazon

AWS re:Invent 2025 - Dr. Swami Sivasubramanian

Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •

Reinforcement？

Reinforcement Learning Reinforcement … Reinforcement Learning（強化学習）強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」⾝近な例：ゲームをする場合

ゲームに対しての攻略⽅法がわからないユーザが取れる⾏動： • 攻撃する • 移動するなど → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement

⾏動の結果がわかる結果： • 勝つ • 負けるなどこの結果と⾏動を紐づけて考える例：攻撃すると勝つ、移動すると負ける Reinforcement

Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる

Reinforcement Fine-tuningについて

Reinforcement Fine-tuning Reinforcement Fine-tuning （RFT）「強化学習」の仕組みを LLM の学習（Fine-tuning）に適⽤先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬