第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ

Slide 1

Slide 1 text

LLMのファインチューニングデータ Data-Centric AI勉強会小林滉河 (@kajyuuen)

Slide 2

Slide 2 text

1 第四章の内容 • LLMのファインチューニングとはなにか説明 • どんなデータをどのように構築するのか、手法やデータセットを紹介しながら説明

Slide 3

Slide 3 text

2 今日のLT • ミニ「Data-centric AI入門四章」として、ファインチューニングについて説明します • 内容については「Data-centric AI入門」を参照しています • 参照した節は右上に記載します参照した節

Slide 4

Slide 4 text

3 そもそも何故ファインチューニングが必要なのか？ 4.1節事前学習ファインチューニング事前学習モデルファインチューニングモデル初期化されたパラメータ大規模コーパスファインチューニングデータ • 大規模言語モデルに次単語予測以外の機能を持たせるために必要 • 例: 「私は勉強会に」 • 次に来そうな単語を予想するモデルが言語モデル

Slide 5

Slide 5 text

4 ファインチューニングにはどんなデータが必要か？ 4.2, 4.3節 Instruction Data 今日の晩御飯の献立を考えてください。カレーはいかがでしょうか？ • 質問とLLMに求める理想的な応答のペア • LLMに生成のスタイルを教える • 質問と優劣が付与された二つの応答 • LLMの生成を人間好みにする Preference Data 10 x 40 は？ 400です。 4

Slide 6

Slide 6 text

5 どんなファインチューニングデータを集めるべきか？応答の品質 • 指示の意図を的確に理解し、適切に答えている応答を用意指示の多様性 • 要約やコーディング、カテゴリ分類など様々なタスクをカバーし、多様性を持たせる指示の複雑さ • 簡単な指示だけではなく、複雑な指示も用意する 4.2, 4.3節

Slide 7

Slide 7 text

6 どうやってデータを作ればいいの？過去のNLPデータを用いて、機械的に作成 • Pros: 低コスト、NLPタスクのデータが集まる • Cons: 不自然なデータが多い、多様性の欠如人手で作成 • Pros: 高品質なデータが集まる、目的にあったデータが集まる • Cons: 高コスト、品質管理が難しい LLMを用いて作成 • Pros: 低コスト、データを高速に集められる • Cons: 利用規約による制限あり、データの信頼性が低い 4.2, 4.3節

Slide 8

Slide 8 text

7 作ったモデルの良さはどう判断する？ 4.4節定量的な指標による評価 • Pros: 低コスト、自動化が容易 • Cons: 実ユースケースから離れる人間や言語モデルによる評価 • Pros: 実ユースケースに沿う • Cons: ブレが生じる、高コスト

Slide 9

Slide 9 text

8 まとめ • 多くの人が想像する対話可能なLLMを実現するにはファインチューニングが必要不可欠 • ファインチューニングデータは大きくInstruction Dataと Preference Dataに分かれる • 両データとも質や多様性、複雑さが大切 • 作る方法も多様 • 作ったデータがいい影響を与えているかの確認には評価は必須 • 出来るのなら定量的な指標を用いた評価と人やLLMを用いた評価をしたい

Slide 10

Slide 10 text

9 出版以降、ファインチューニングデータに変化はあったか？手法に大きな変化はないが、データの自動作成の重要度がより高まっている • 例 • DeepSeek-R1: 800KのInstruction Data • Qwen2.5: 1MのInstruction Data • どう考えても人手だけで作成するのは不可能… • LLMを用いて大量のデータを生成し、人手データをもとにしたフィルタリングによって質、多様性、複雑さを高める • 複雑なデータは人手で作ることもしている番外編