Slide 18
Slide 18 text
CONFIDENTIAL © 2024 EVERSTEEL Inc 18
学習データの量と質、近年のAI業界の⾵潮
学習に使⽤した検収データ数
正解率
A社の等級判定AIにおける
学習データ数と正解率(EVERSTEEL)
学習データ数とデータの質に関する
⼀般的な調査 近年急速に発達する視覚⾔語モデルは、
画像とテキストの4億ペアで学習
(ChatGPTを開発するOpenAI社)
[A. Radford+, Learning Transferable Visual Models From
Natural Language Supervision, ICML2021]
Year Dataset Scale Main Task
2009 ImageNet 1400万画像 画像分類
2014 COCO 33万画像
物体検出、
セグメンテーション
2015 Librispeech 1000時間の⾳声 ⾳声認識
2016 Open Images 数百万画像
物体検出、
セグメンテーション
2016 YouTube-8M 800万動画 動画分類
2020 JFT-300M 3億画像 画像分類
2021 CLIP
4億画像テキスト
ペア
⾔語⇔画像
2022 Laion-5B
50億画像テキスト
ペア
⾔語⇔画像
近年の急速なデータセットの⼤規模化
また、マルチモーダルへの広がり
↑近年発達している⽂章から画像を⽣成する
AIの内部でも活⽤されている
[A. Ramesh+, Hierarchical Text-Conditional Image
Generation with CLIP Latents, arXiv2022]