CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード:データの問題から生じる 負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視:データ収集やアノテー ションなどの作業はモデル開発と比較して、 成果が適切に評価されづらく、インセン ティブ(報酬や学術的成果など)が不足し ているため、軽視される傾向にある。 • データカスケードの原因:現実世界との乖離、 応用ドメイン領域の知識不足、相反する報酬 システム、組織間におけるドキュメント不足 により発生
するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • データ効率の改善 • 多様なデータ領域からの転移学習 • AIによる合成データ
models collapse when trained on recursively generated data • 研究の目的:将来、インターネット上のコンテンツの多くがAIによって生成されるようになると、新 しいモデルはAI生成データを再び学習することになる。本研究では、AIが自ら生成した情報を再学習 し続けたときに、モデルの性能や分布特性にどのような影響が生じるのかを明らかにする。 • モデル崩壊:学習済みのモデルが生成したデータが次世代モデルの学習データセットを汚染し、後続 モデルが現実を誤って認識するようになる退化的なプロセスのこと。
A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのタイプ • 教科書スタイルの合成データ (TXBK)を学習に用いた場合、Validation loss が明確に高く、 性能が劣化する。 • 再言語化合成データ(HQやQA)では、自然データ (CC)と同等、あるいはわずかに良好な結果 が得られた。 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (2/3)