Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMの事前学習のためのテキストデータの収集と構築
Search
Shun Kiyono
February 12, 2025
0
830
LLMの事前学習のためのテキストデータの収集と構築
第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会
Shun Kiyono
February 12, 2025
Tweet
Share
More Decks by Shun Kiyono
See All by Shun Kiyono
[SNLP2024] Tuning Language Models by Proxy
butsugiri
0
410
より良いTransformerをつくる
butsugiri
35
12k
Reservoir Transformers
butsugiri
0
750
Increasing number of attempts ver. 2021
butsugiri
168
140k
機械翻訳コンペティション参加報告
butsugiri
6
2.6k
[SNLP2020] The Curious Case of Neural Text Degeneration
butsugiri
1
550
大規模疑似データを用いた高性能文法誤り訂正モデルの構築
butsugiri
0
630
[SNLP2019] Generalized Data Augmentation for Low-Resource Translation
butsugiri
0
420
Deep Contextualized Word Representations
butsugiri
0
740
Featured
See All Featured
Gamification - CAS2011
davidbonilla
81
5.4k
Building Adaptive Systems
keathley
43
2.7k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Balancing Empowerment & Direction
lara
2
590
Practical Orchestrator
shlominoach
190
11k
Typedesign – Prime Four
hannesfritz
42
2.8k
Side Projects
sachag
455
43k
Facilitating Awesome Meetings
lara
55
6.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
テキストデータの収集と構築:概要図 2
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない •
Webデータを使うことになる 5
再掲:テキストデータの収集と構築 6
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ •
たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10