Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Search
Koga Kobayashi
February 12, 2025
4
1k
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Koga Kobayashi
February 12, 2025
Tweet
Share
More Decks by Koga Kobayashi
See All by Koga Kobayashi
基礎数学の公式
kajyuuen
1
120
初等確率論の基礎
kajyuuen
1
160
Deep Markov Model を数式で追う (+ Pyroでの追試)
kajyuuen
0
850
Fundamentals of Music Processing (Chapter 5)
kajyuuen
0
62
完全なアノテーションが得られない状況下での固有表現抽出
kajyuuen
3
3.4k
SecHack365 北海道会 LT
kajyuuen
0
470
専門用語抽出手法の研究と 抽出アプリケーションの開発
kajyuuen
1
1.2k
Featured
See All Featured
Speed Design
sergeychernyshev
27
800
Statistics for Hackers
jakevdp
797
220k
Embracing the Ebb and Flow
colly
84
4.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
Navigating Team Friction
lara
183
15k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Raft: Consensus for Rubyists
vanstee
137
6.8k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Practical Orchestrator
shlominoach
186
10k
Building an army of robots
kneath
303
45k
Transcript
LLMのファインチューニングデータ Data-Centric AI勉強会 小林 滉河 (@kajyuuen)
1 第四章の内容 • LLMのファインチューニングとはなにか説明 • どんなデータをどのように構築するのか、手法やデータセットを 紹介しながら説明
2 今日のLT • ミニ「Data-centric AI入門 四章」として、ファインチューニン グについて説明します • 内容については「Data-centric AI入門」を参照しています
• 参照した節は右上に記載します 参照した節
3 そもそも何故ファインチューニングが必要なのか? 4.1節 事前学習 ファイン チューニング 事前学習モデル ファインチューニング モデル 初期化された
パラメータ 大規模コーパス ファインチューニングデータ • 大規模言語モデルに次単語予測以外の機能を持たせるために必要 • 例: 「私は勉強会に」 • 次に来そうな単語を予想するモデルが言語モデル
4 ファインチューニングにはどんなデータが必要か? 4.2, 4.3節 Instruction Data 今日の晩御飯の献立を 考えてください。 カレーはいかがでしょうか? •
質問とLLMに求める理想的 な応答のペア • LLMに生成のスタイルを 教える • 質問と優劣が付与された 二つの応答 • LLMの生成を人間好みにす る Preference Data 10 x 40 は? 400です。 4
5 どんなファインチューニングデータを集めるべきか? 応答の品質 • 指示の意図を的確に理解し、適切に答えている応答を用意 指示の多様性 • 要約やコーディング、カテゴリ分類など様々なタスクをカバーし、 多様性を持たせる 指示の複雑さ
• 簡単な指示だけではなく、複雑な指示も用意する 4.2, 4.3節
6 どうやってデータを作ればいいの? 過去のNLPデータを用いて、機械的に作成 • Pros: 低コスト、NLPタスクのデータが集まる • Cons: 不自然なデータが多い、多様性の欠如 人手で作成
• Pros: 高品質なデータが集まる、目的にあったデータが集まる • Cons: 高コスト、品質管理が難しい LLMを用いて作成 • Pros: 低コスト、データを高速に集められる • Cons: 利用規約による制限あり、データの信頼性が低い 4.2, 4.3節
7 作ったモデルの良さはどう判断する? 4.4節 定量的な指標による評価 • Pros: 低コスト、自動化が容易 • Cons: 実ユースケースから離れる
人間や言語モデルによる評価 • Pros: 実ユースケースに沿う • Cons: ブレが生じる、高コスト
8 まとめ • 多くの人が想像する対話可能なLLMを実現するには ファインチューニングが必要不可欠 • ファインチューニングデータは大きくInstruction Dataと Preference Dataに分かれる
• 両データとも質や多様性、複雑さが大切 • 作る方法も多様 • 作ったデータがいい影響を与えているかの確認には評価は必須 • 出来るのなら定量的な指標を用いた評価と人やLLMを用いた評 価をしたい
9 出版以降、ファインチューニングデータに変化はあったか? 手法に大きな変化はないが、 データの自動作成の重要度がより高まっている • 例 • DeepSeek-R1: 800KのInstruction Data
• Qwen2.5: 1MのInstruction Data • どう考えても人手だけで作成するのは不可能… • LLMを用いて大量のデータを生成し、人手データをもとにした フィルタリングによって質、多様性、複雑さを高める • 複雑なデータは人手で作ることもしている 番外編