LLMの事前学習のためのテキストデータの収集と構築

Slide 1

Slide 1 text

テキストデータの収集と構築清野舜 @shunkiyono LLMの事前学習のための

Slide 2

Slide 2 text

テキストデータの収集と構築：概要図 2

Slide 3

Slide 3 text

言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル（LLM）：データ、計算量、パラメータを大規模にした言語モデル 3

Slide 4

Slide 4 text

大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット：データ 4 Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

Slide 5

Slide 5 text

どれくらいのデータが欲しい？ • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント：Wikipediaは700個もない • Webデータを使うことになる 5

Slide 6

Slide 6 text

再掲：テキストデータの収集と構築 6

Slide 7

Slide 7 text

問題①：データをどうやって大規模に集めるか？ • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ：低品質 • metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7

Slide 8

Slide 8 text

問題②：Webデータはノイズだらけ • その他，成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8

Slide 9

Slide 9 text

問題③：Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎, 青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し，類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9

Slide 10

Slide 10 text

まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが，ノイズだらけ • たくさん＆高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください！ 10