Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Search
Koga Kobayashi
February 12, 2025
4
1.7k
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Koga Kobayashi
February 12, 2025
Tweet
Share
More Decks by Koga Kobayashi
See All by Koga Kobayashi
基礎数学の公式
kajyuuen
1
160
初等確率論の基礎
kajyuuen
1
180
Deep Markov Model を数式で追う (+ Pyroでの追試)
kajyuuen
0
940
Fundamentals of Music Processing (Chapter 5)
kajyuuen
0
96
完全なアノテーションが得られない状況下での固有表現抽出
kajyuuen
3
3.6k
SecHack365 北海道会 LT
kajyuuen
0
530
専門用語抽出手法の研究と 抽出アプリケーションの開発
kajyuuen
1
1.3k
Featured
See All Featured
The Curious Case for Waylosing
cassininazir
0
200
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
730
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Code Review Best Practice
trishagee
74
19k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
How STYLIGHT went responsive
nonsquared
100
6k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Facilitating Awesome Meetings
lara
57
6.7k
Transcript
LLMのファインチューニングデータ Data-Centric AI勉強会 小林 滉河 (@kajyuuen)
1 第四章の内容 • LLMのファインチューニングとはなにか説明 • どんなデータをどのように構築するのか、手法やデータセットを 紹介しながら説明
2 今日のLT • ミニ「Data-centric AI入門 四章」として、ファインチューニン グについて説明します • 内容については「Data-centric AI入門」を参照しています
• 参照した節は右上に記載します 参照した節
3 そもそも何故ファインチューニングが必要なのか? 4.1節 事前学習 ファイン チューニング 事前学習モデル ファインチューニング モデル 初期化された
パラメータ 大規模コーパス ファインチューニングデータ • 大規模言語モデルに次単語予測以外の機能を持たせるために必要 • 例: 「私は勉強会に」 • 次に来そうな単語を予想するモデルが言語モデル
4 ファインチューニングにはどんなデータが必要か? 4.2, 4.3節 Instruction Data 今日の晩御飯の献立を 考えてください。 カレーはいかがでしょうか? •
質問とLLMに求める理想的 な応答のペア • LLMに生成のスタイルを 教える • 質問と優劣が付与された 二つの応答 • LLMの生成を人間好みにす る Preference Data 10 x 40 は? 400です。 4
5 どんなファインチューニングデータを集めるべきか? 応答の品質 • 指示の意図を的確に理解し、適切に答えている応答を用意 指示の多様性 • 要約やコーディング、カテゴリ分類など様々なタスクをカバーし、 多様性を持たせる 指示の複雑さ
• 簡単な指示だけではなく、複雑な指示も用意する 4.2, 4.3節
6 どうやってデータを作ればいいの? 過去のNLPデータを用いて、機械的に作成 • Pros: 低コスト、NLPタスクのデータが集まる • Cons: 不自然なデータが多い、多様性の欠如 人手で作成
• Pros: 高品質なデータが集まる、目的にあったデータが集まる • Cons: 高コスト、品質管理が難しい LLMを用いて作成 • Pros: 低コスト、データを高速に集められる • Cons: 利用規約による制限あり、データの信頼性が低い 4.2, 4.3節
7 作ったモデルの良さはどう判断する? 4.4節 定量的な指標による評価 • Pros: 低コスト、自動化が容易 • Cons: 実ユースケースから離れる
人間や言語モデルによる評価 • Pros: 実ユースケースに沿う • Cons: ブレが生じる、高コスト
8 まとめ • 多くの人が想像する対話可能なLLMを実現するには ファインチューニングが必要不可欠 • ファインチューニングデータは大きくInstruction Dataと Preference Dataに分かれる
• 両データとも質や多様性、複雑さが大切 • 作る方法も多様 • 作ったデータがいい影響を与えているかの確認には評価は必須 • 出来るのなら定量的な指標を用いた評価と人やLLMを用いた評 価をしたい
9 出版以降、ファインチューニングデータに変化はあったか? 手法に大きな変化はないが、 データの自動作成の重要度がより高まっている • 例 • DeepSeek-R1: 800KのInstruction Data
• Qwen2.5: 1MのInstruction Data • どう考えても人手だけで作成するのは不可能… • LLMを用いて大量のデータを生成し、人手データをもとにした フィルタリングによって質、多様性、複雑さを高める • 複雑なデータは人手で作ることもしている 番外編