Reinforcement Fine-tuning 基礎〜実践まで

by Morita

Slide 1

Slide 1 text

2025/12/11 クラウド事業本部コンサルティング部森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで

Slide 2

Slide 2 text

⾃⼰紹介 ● 所属 ○ クラウド事業本部コンサルティング部 ● 好きなサービス ○ Amazon Bedrock ○ AWS Lambda ● re:Invent ○ 2回⽬の参加 ○ PCディスプレイ破損した😇

Slide 3

Slide 3 text

AWS re:Invent 2025 - Dr. Swami Sivasubramanian

Slide 4

Slide 4 text

Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として ● ベースモデルと⽐較して、平均66%の精度向上を実現 ● 深い機械学習（ML）の専⾨知識や、⼤規模なラベル付きデータセットは不要 ● エンドツーエンドで⾃動化されたファインチューニング ● 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現

Slide 5

Slide 5 text

Reinforcement？

Slide 6

Slide 6 text

Reinforcement Learning Reinforcement … Reinforcement Learning（強化学習）強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」⾝近な例：ゲームをする場合

Slide 7

Slide 7 text

ゲームに対しての攻略⽅法がわからないユーザが取れる⾏動： ● 攻撃する ● 移動するなど → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement Learning

Slide 8

Slide 8 text

⾏動の結果がわかる結果： ● 勝つ ● 負けるなどこの結果と⾏動を紐づけて考える例：攻撃すると勝つ、移動すると負ける Reinforcement Learning

Slide 9

Slide 9 text

Reinforcement Learning ゲームの場合でも ● 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい強化学習では ● 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる ● 結果も数値で表現するため、 ○ 良い結果の場合、プラス ○ 悪い結果の場合、マイナス ○ このように与える数値のことを報酬と呼びます

Slide 10

Slide 10 text

Reinforcement Fine-tuningについて

Slide 11

Slide 11 text

Reinforcement Fine-tuning Reinforcement Fine-tuning （RFT）「強化学習」の仕組みを LLM の学習（Fine-tuning）に適⽤先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬具体的には、モデルが⽣成した回答に対して、「この回答は良い（報酬を与える）」「この回答は良くない（罰則を与える）」というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能

Slide 12

Slide 12 text

Reinforcement Fine-tuning

Slide 13

Slide 13 text

Bedrock Reinforcement Fine-tuningについて

Slide 14

Slide 14 text

Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 ● ソースモデル ● ⼊⼒データ ● 報酬関数

Slide 15

Slide 15 text

ソースモデル現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/

Slide 16

Slide 16 text

⼊⼒データ ● OpenAI chat completions format（JSONL） ● モデル呼び出しログ

Slide 17

Slide 17 text

報酬関数 AI フィードバック ● AI（LLM）を⽤いて評価する⽅法 ● AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えることで、回答をより柔軟に評価することが可能となる

Slide 18

Slide 18 text

報酬関数 AI フィードバック ● 選択できるAI（LLM） ○ Nova Premier ○ gpt-oss-120b ● プロンプトのサンプルの提供あり ○ Instruction following (Judge model training) ○ Summarization (Multi-turn dialogs) ○ Reasoning evaluation (CoT for specialized domains) ○ RAG faithfulness (Context-grounded Q&A)

Slide 19

Slide 19 text

報酬関数検証可能な報酬 ● 報酬関数を事前にルールベースで定義 ● コード⽣成や数学的推論では、以下のように明確な正解が存在する ○ エラーなく実⾏できるか ○ 計算結果が合っているか ● このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、より正確で効率的な学習が可能になります。

Slide 20

Slide 20 text

報酬関数検証可能な報酬 ● AWS Lambdaで設定可能 ● Lambdaのサンプル提供あり ○ Format & constraints checker ○ Math reasoning

Slide 21

Slide 21 text

結論：「⼊⼒データ」だけ準備すればOK

Slide 22

Slide 22 text

Bedrock Reinforcement Fine-tuningのジョブ実⾏ ● ジョブの時間単位 ● （おそらく）関連リソースの料⾦も発⽣する ○ 報酬関数（LLM, AWS Lambda）モデル推論 ● カスタムモデルオンデマンド ○ 利⽤したトークンベースの課⾦ ○ ホスティング費⽤は発⽣しない料⾦

Slide 23

Slide 23 text

まとめ ● 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に ● ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり ● 作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる

Slide 24

Slide 24 text

No content