Slide 1

Slide 1 text

Data Is All You Need 株式会社Elith CEO & CTO Koki Inoue

Slide 2

Slide 2 text

LLMの学習データ 一般利用可能なオープンソースデータセット ● CommonCrawl:3.3TB ○ Webサイトからアーカイブされた多言語データセット ● Colossal Clean Crawled Corpus(C4):783GB ○ Googleによりクリーンに処理された CommonCrawlデータセット ● Github:328GB ○ Apach, BSD, MITライセンスで配布されるプロジェクトを対象 ● ArXiv:92GB ○ 170万件のArXiv論文から構成 ● Gutenberg , Books3:85GB ○ Gutenberg:パブリックドメインの電子書籍 (100,000以上のタイトル)から構成 ○ Book3:197.000冊の電子書籍から ● Stack Exchange:78GB ○ Stack Overflowの質問・回答から構成 2 日本語LLM学習への応用方法 ● 和訳 ● 日本語テキストだけの利用 ○ cc-100, mC4等

Slide 3

Slide 3 text

LIMA: Less Is More for Alignment LIMAは750,000tokensの学習データで良い性能を出した ● LIMAはLLaMa 65Bをファインチューニングしたもの ● ドメインの多様性を確保し、高品質なデータを利用 3 合計 1,000例

Slide 4

Slide 4 text

Textbooks Are All You Need コード生成タスクにおいて、 少量の高品質データ と小さいモデルサイズで高性能モデルが作成できる ● ネットで集めたドキュメントがしっかりした高品質データセット : 6B tokens ● GPT-3.5で生成した高品質データセット : 1B tokens程度 ● Pythonの演習と回答のデータセット : 180M tokens程度 4

Slide 5

Slide 5 text

Llama 2: Open Foundation and Fine-Tuned Chat Models 教師あり学習 ● アノテーターに依頼し高品質データ 27,540件を作成し学習(Supervised Fine-Tuning (SFT)) 5

Slide 6

Slide 6 text

データアノテーション市場 6 ● 海外のアノテーション市場は $1,545Mから$13,922M(9倍)まで大きくなる ● 日本のアノテーション市場は $73Mから$1,363M(18倍)まで大きくなる

Slide 7

Slide 7 text

まとめ 性能の良いモデルを作成するためにはデータは不可欠である。 紹介した3つ論文から ①少数の高品質データ、② LLMから生成したデータ を利用することでより性能の良い LLM開発ができる可能性がある。 これからはプレイヤーとして、 LLMのデータアノテーション領域が熱い。 強いLLMプレイヤーはデータアノテーション事業者にもなり得る。 Data Is All You Need。 7