従来のタスク特化のデータセット LAION-5B:Webから収集した50億の 画像・キャプションペア IMDB Moview Reviews:映画のレビュー文と 極性ラベルからなる5万サンプル The Pile: Webから収集した825GBのテキスト Why is the Pile a good training set? Recent work has shown that especially for large models, diversity in data sources improves general cross-domain knowledge of the model, as well as downstream generalization capability. In our evaluations, not only do models trained on the Pile show moderate improvements in traditional language modeling benchmarks, they also show significant improvements on Pile BPB. Why is the Pile a good benchmark? To score well on Pile BPB (bits per byte), a model must be able to understand many disparate domains including books, github repositories, webpages, chat logs, and medical, physics, math, computer science, and philosophy papers. Pile BPB is a measure of world knowledge and reasoning ability in these domains, making it a robust benchmark of general, cross-domain text … 大量かつ多様なデータセット
astronaut riding a horse in a photorealistic style” https://openai.com/product/dall-e-2 https://www.midjourney.com/showcase/recent/ “A magical and dreamlike fairy tale, a budding fairyland, sparkling sunlight, a charming Cinderella …” DALL・E 2 Midjourney Stable Diffusion “Cyberpunk city landscape” https://stablediffusionweb.com/
)。 Web上に嘘や学習を阻害するようなデータを置くこ とは容易にできる。 ChatGPTのような世界中で使われているモデルが攻撃された場合のリスクは大きい (例:高度に政治的な問題に関する意見を歪ませる) [2108.07258] On the Opportunities and Risks of Foundation Models
the Opportunities and Risks on Foundation Models ◦ 基盤モデルの概念を初めて提唱し、可能性とリスクを多面的に論じた原典 • Recruit Data Blog | AI開発の新たなパラダイム「基盤モデル」とは ◦ 上記「基盤モデル論文」をベースに、平易な日本語で技術動向を解説した記事 by 荒居&本田 • State of AI Report 2022 ◦ 毎年10月に発表される1年間のAI関連の技術動向をまとめた資料 • 2023 AI Index Report ◦ コンセプトは上記と同様だが、2023年3月公開のより新しい資料 ◦ ChatGPTがカバーされている