Slide 173
Slide 173 text
• 学習用のハードウェア
• 10,000程度のGPUと、285,000個程度の CPU 搭載のスーパーコンピューター的なシステム基盤
• Microsoft announces new supercomputer, lays out vision for future AI work – Source
• エンジニアリング リソース
• 世界最高峰の博士号をもつデータサイエンティストが欲しい。Open AI では、2016年に Chief Scientist の Ilya Sutskever に190万 USD
を支払って、現在は 1,000名程度のチームを率いていると言われている。
• A.I. Researchers Are Making More Than $1 Million, Even at a Nonprofit - The New York Times (nytimes.com)
• 時間
• EleutherAI (GPT-3 相当のモデル作成を試みている団体) は、The Pile (巨大なデータセット) 利用のための法的な合意形成や収集、
クリーニング、それらの準備に12-18か月の時間をかけていると言われている。The Pile が 400Bトークン以下しかない場合は、DeepMind が
効果の出る基準とみなしている 1,400Bトークンを満たすために、The Pile と同じ品質のデータセットを 4つ見つける必要がある
• 学習用の時間
• モデルの学習には、9-12か月かかると言われている。それは、全てが1度でうまくいった場合。
• [2005.14165] Language Models are Few-Shot Learners (arxiv.org)
• metaseq/OPT175B_Logbook.pdf at main · facebookresearch/metaseq (github.com)
• 推論環境
• 24 x 365 稼働のための高性能なコンピューターと開発用のソフトウェアエンジニアが必要
ChatGPT の構築に必要だと言われているリソース