Slide 2
Slide 2 text
LLMの学習データ
一般利用可能なオープンソースデータセット
● CommonCrawl:3.3TB
○ Webサイトからアーカイブされた多言語データセット
● Colossal Clean Crawled Corpus(C4):783GB
○ Googleによりクリーンに処理された CommonCrawlデータセット
● Github:328GB
○ Apach, BSD, MITライセンスで配布されるプロジェクトを対象
● ArXiv:92GB
○ 170万件のArXiv論文から構成
● Gutenberg , Books3:85GB
○ Gutenberg:パブリックドメインの電子書籍 (100,000以上のタイトル)から構成
○ Book3:197.000冊の電子書籍から
● Stack Exchange:78GB
○ Stack Overflowの質問・回答から構成
2
日本語LLM学習への応用方法
● 和訳
● 日本語テキストだけの利用
○ cc-100, mC4等