Slide 8
Slide 8 text
😩 ⼤規模⾔語コーパスは汚い
• 事前学習では Common Crawl や C4 のようなデータセットを⽤いることが多い
• ある程度の前処理は⾏われているデータセットもあるが実際は結構汚い
• データの品質はモデル性能に関わるので磨き上げたい
Textbooks Are All You Need The RefinedWeb Dataset for Falcon LLM: Outperforming Curated
Corpora with Web Data, and Web Data