Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMの事前学習のためのテキストデータの収集と構築
Search
Shun Kiyono
February 12, 2025
0
890
LLMの事前学習のためのテキストデータの収集と構築
第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会
Shun Kiyono
February 12, 2025
Tweet
Share
More Decks by Shun Kiyono
See All by Shun Kiyono
[SNLP2024] Tuning Language Models by Proxy
butsugiri
0
450
より良いTransformerをつくる
butsugiri
36
13k
Reservoir Transformers
butsugiri
0
790
Increasing number of attempts ver. 2021
butsugiri
169
140k
機械翻訳コンペティション参加報告
butsugiri
6
2.6k
[SNLP2020] The Curious Case of Neural Text Degeneration
butsugiri
1
580
大規模疑似データを用いた高性能文法誤り訂正モデルの構築
butsugiri
0
640
[SNLP2019] Generalized Data Augmentation for Low-Resource Translation
butsugiri
0
430
Deep Contextualized Word Representations
butsugiri
0
750
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
210
The Pragmatic Product Professional
lauravandoore
37
7.1k
Site-Speed That Sticks
csswizardry
13
1k
Building AI with AI
inesmontani
PRO
1
570
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
91
How to train your dragon (web standard)
notwaldorf
97
6.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
1
210
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
230
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
81
Transcript
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
テキストデータの収集と構築:概要図 2
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない •
Webデータを使うことになる 5
再掲:テキストデータの収集と構築 6
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ •
たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10