LLMの事前学習のためのテキストデータの収集と構築
by
Shun Kiyono
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
Slide 2
Slide 2 text
テキストデータの収集と構築:概要図 2
Slide 3
Slide 3 text
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
Slide 4
Slide 4 text
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
Slide 5
Slide 5 text
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない • Webデータを使うことになる 5
Slide 6
Slide 6 text
再掲:テキストデータの収集と構築 6
Slide 7
Slide 7 text
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 • metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
Slide 8
Slide 8 text
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
Slide 9
Slide 9 text
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎, 青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
Slide 10
Slide 10 text
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ • たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10