Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Search
Koga Kobayashi
February 12, 2025
4
1.5k
第13回 Data-Centric AI勉強会, LLMのファインチューニングデータ
Koga Kobayashi
February 12, 2025
Tweet
Share
More Decks by Koga Kobayashi
See All by Koga Kobayashi
基礎数学の公式
kajyuuen
1
140
初等確率論の基礎
kajyuuen
1
170
Deep Markov Model を数式で追う (+ Pyroでの追試)
kajyuuen
0
880
Fundamentals of Music Processing (Chapter 5)
kajyuuen
0
78
完全なアノテーションが得られない状況下での固有表現抽出
kajyuuen
3
3.4k
SecHack365 北海道会 LT
kajyuuen
0
500
専門用語抽出手法の研究と 抽出アプリケーションの開発
kajyuuen
1
1.3k
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
Writing Fast Ruby
sferik
628
61k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.8k
Side Projects
sachag
454
42k
A designer walks into a library…
pauljervisheath
206
24k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Making the Leap to Tech Lead
cromwellryan
134
9.3k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
650
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Transcript
LLMのファインチューニングデータ Data-Centric AI勉強会 小林 滉河 (@kajyuuen)
1 第四章の内容 • LLMのファインチューニングとはなにか説明 • どんなデータをどのように構築するのか、手法やデータセットを 紹介しながら説明
2 今日のLT • ミニ「Data-centric AI入門 四章」として、ファインチューニン グについて説明します • 内容については「Data-centric AI入門」を参照しています
• 参照した節は右上に記載します 参照した節
3 そもそも何故ファインチューニングが必要なのか? 4.1節 事前学習 ファイン チューニング 事前学習モデル ファインチューニング モデル 初期化された
パラメータ 大規模コーパス ファインチューニングデータ • 大規模言語モデルに次単語予測以外の機能を持たせるために必要 • 例: 「私は勉強会に」 • 次に来そうな単語を予想するモデルが言語モデル
4 ファインチューニングにはどんなデータが必要か? 4.2, 4.3節 Instruction Data 今日の晩御飯の献立を 考えてください。 カレーはいかがでしょうか? •
質問とLLMに求める理想的 な応答のペア • LLMに生成のスタイルを 教える • 質問と優劣が付与された 二つの応答 • LLMの生成を人間好みにす る Preference Data 10 x 40 は? 400です。 4
5 どんなファインチューニングデータを集めるべきか? 応答の品質 • 指示の意図を的確に理解し、適切に答えている応答を用意 指示の多様性 • 要約やコーディング、カテゴリ分類など様々なタスクをカバーし、 多様性を持たせる 指示の複雑さ
• 簡単な指示だけではなく、複雑な指示も用意する 4.2, 4.3節
6 どうやってデータを作ればいいの? 過去のNLPデータを用いて、機械的に作成 • Pros: 低コスト、NLPタスクのデータが集まる • Cons: 不自然なデータが多い、多様性の欠如 人手で作成
• Pros: 高品質なデータが集まる、目的にあったデータが集まる • Cons: 高コスト、品質管理が難しい LLMを用いて作成 • Pros: 低コスト、データを高速に集められる • Cons: 利用規約による制限あり、データの信頼性が低い 4.2, 4.3節
7 作ったモデルの良さはどう判断する? 4.4節 定量的な指標による評価 • Pros: 低コスト、自動化が容易 • Cons: 実ユースケースから離れる
人間や言語モデルによる評価 • Pros: 実ユースケースに沿う • Cons: ブレが生じる、高コスト
8 まとめ • 多くの人が想像する対話可能なLLMを実現するには ファインチューニングが必要不可欠 • ファインチューニングデータは大きくInstruction Dataと Preference Dataに分かれる
• 両データとも質や多様性、複雑さが大切 • 作る方法も多様 • 作ったデータがいい影響を与えているかの確認には評価は必須 • 出来るのなら定量的な指標を用いた評価と人やLLMを用いた評 価をしたい
9 出版以降、ファインチューニングデータに変化はあったか? 手法に大きな変化はないが、 データの自動作成の重要度がより高まっている • 例 • DeepSeek-R1: 800KのInstruction Data
• Qwen2.5: 1MのInstruction Data • どう考えても人手だけで作成するのは不可能… • LLMを用いて大量のデータを生成し、人手データをもとにした フィルタリングによって質、多様性、複雑さを高める • 複雑なデータは人手で作ることもしている 番外編