Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM勉強会_vol.7_大規模言語モデルの進展.pdf

Avatar for Haruhisa Kimoto Haruhisa Kimoto
November 26, 2023
22

 LLM勉強会_vol.7_大規模言語モデルの進展.pdf

Avatar for Haruhisa Kimoto

Haruhisa Kimoto

November 26, 2023
Tweet

Transcript

  1. 人間のフィードバックからの強化学習 ◦指示チューニングとRLHF RLHFのメリット • データセットの作成のコストが下がる ◦ テキストを生成するよりも、優劣を判断する方がラク • モデルの出力に対して、直接フィードバックを行うことができる ◦

    報酬が定義できるため。  → 創造的なタスクにも良く効く RLHFのデメリット • 指示チューニングと比較すると、学習の難易度が高くなる ◦ テキストの中でのどのトークンがどのように報酬を左右したのかを特定して、学習を行う必要がある
  2. ChatGPT • OpneAIが2023年に発表 • 大規模言語モデルを対話形式で操作する方法を採用 • 指示チューニングとRLHFを組み合わせた方法で学習している • 対話形式に対応するためのデータセットを追加している ◦

    ユーザとモデルの擬似的な会話を含んだデータセットを作成。(モデルの回答も作成) ◦ 作成したデータを使用して、指示チューニングを行う。 • 報酬モデルを訓練している ◦ 人間とモデルの会話を収集したデータセットを作成。(モデルの回答は実際のモデルから) ◦ メッセージの優劣を順位づけすることで、報酬モデルようのデータセットを作成。 ◦ 報酬モデルのデータセット構築・訓練と強化学習を数回繰り返す。 →最終的なモデルの作成