「第1回 Data-Centric AI勉強会」で発表した資料です。 https://dcai-jp.connpass.com/event/282385/
Data-Centric AIのためのベンチマーク2023/06/01 第1回 Data-Centric AI勉強会鈴木達哉GO株式会社
View Slide
© GO Inc. 2自己紹介GO株式会社AIエンジニア / 鈴木達哉上智大学大学院修了後、DeNAに新卒入社。現在はGO株式会社へ出向し、プロダクトから収集されるデータを活用した次世代のデータ活用基盤を開発するプロジェクトでコンピュータビジョンに関する研究開発を担当。@x_ttyszk
© GO Inc. 301|Data-Centricなベンチマークとは何か02|DataPerfが提案するベンチマークタスク03 | まとめ
© GO Inc. 401 Data-Centricなベンチマークとは何か
© GO Inc. 5Model-Centric AIのベンチマーク▪これまで機械学習のベンチマークと言えば同じデータに対して、モデルを変えて精度を競争するModel-Centricな物が一般的であった▪著名なModel-Centric AIのベンチマーク(例:MNIST, ImageNet)でモデルは人間の能力を超え、飽和状態にある人間の精度を0とした時のモデルの精度の変遷[2207.10062] DataPerf: Benchmarks for Data-Centric AI Development
© GO Inc. 6データは機械学習のボトルネック▪ 学習データが機械学習の最大能力を決めていると言える▪ モデルの優劣はその能力をどこまで実現できるかに影響する▪ 固定されたデータが能力のボトルネックになっている▪ 飽和状態にあるModel-Centric AIのベンチマークではこれ以上モデルの本質的な性能向上は行えず、データ側を改善する必要がある
© GO Inc. 7次に必要なベンチマークは?▪データへの着目はData-Centric AIとして知られているが、初期には具体的タスクが整理されていなかった▪定量評価の方法も確立されていない▪ データの改善手法が発展していくことが期待できる▪ 改善されたデータがModel-Centricな研究開発で使われることで、機械学習の性能はより向上していく同じモデルに対して、データを変えて精度を競争するData-Centric AIのためのベンチマークが必要
© GO Inc. 8タスクを整理Data-Centric AIで取り組む具体的なタスクは何なのか?→既知のタスクを例えば以下のように整理できる[2303.10158] Data-centric Artificial Intelligence: A Survey Table 1
© GO Inc. 902 DataPerfが提案するベンチマークタスク
© GO Inc. 10Data-Centric AIのベンチマークDataPerf▪ データセット作成を評価する取り組み▪ 2021年のData-Centirc AI Competitionからはじまっている▪ ICML2022でワークショップを開催▪ 2023年3月末にコンペを公開[2207.10062] DataPerf: Benchmarks for Data-Centric AI DevelopmentData-centric ML benchmarking: Announcing DataPerf’s 2023 challenges – Google AI Blog
© GO Inc. 11データ関係の測れる要素は多数存在する従来のベンチマークは中央のモデル関係しか扱っていなかったが、左右のデータ関係も重要
© GO Inc. 12Data-Centricな開発フロー▪ Data-Centricな開発においては以下のような操作が行われる▪ データセット作りに関する指標をもとにしてデータセットの再構築を繰り返していく
© GO Inc. 13Data-Centric AIのベンチーマークDataPerfは次の6つのベンチマークタスクを提案している1. Training set creation:学習データセットを作る2. Test set creation:テストデータセットを作る3. Data selection:学習データを減らす4. Data debugging:学習データの間違いを見つける5. Data valuation:学習データを増やすために質を見積もる6. Slice discovery:苦手なサブグループを見つける
© GO Inc. 141 Training set creation:学習データセットを作るタスク:与えられた学習データセットの改善提出物:改善した学習データセット評価指標:改善後の学習データセットで学習したモデルの精度▪ モデルを固定し、学習データセットを改善(Model-Centricの逆)▪ ラベルの見直し▪ 不適切なデータの削除▪ 実務では以前から行われてきたことであるが、研究課題として取り上げることで手法の発展を狙う
© GO Inc. 152 Test set creation:テストデータセットを作るタスク:テストデータを選ぶアルゴリズムの作成提出物:選んだテストデータセット評価指標:人間に解けてモデルが解けないデータの割合▪ モデルを固定し、評価データセットを改善▪ Model-Centric AIのベンチマークのスコアが飽和していることへの直接的な改善になる。機械学習の能力の発展を狙う
© GO Inc. 163 Data selection:学習データを減らすタスク:データを減らすアルゴリズムの作成提出物:削減した学習データセット評価指標:削減した学習データセットで学習したモデルの精度▪ 例:active learning, core-set selection▪ モデルを固定し、学習データセットを小さくする▪ アノテーションや学習のコスト削減を狙う
© GO Inc. 174 Data debugging:学習データの間違いを見つけるタスク:間違っている可能性の順位付けアルゴリズムの作成提出物:サンプルに対する間違っている可能性の順位のリスト評価指標:何番目まで正解に置き換えた時に 学習したモデルの精度が閾値を超えるかどうか▪ モデルを固定し、学習データセットのラベルを修正する順位付けをする▪ ラベルの欠損や間違いの修正コスト削減を狙う
© GO Inc. 185 Data valuation:学習データを増やすために質を見積もるタスク:一部しか所持していないデータセットの精度予測提出物:予測した精度評価指標:予測した精度と実際の精度の差▪ モデルを固定し、未知の学習データの精度を予測する▪ 一部はラベル付きで持っていて、残りは持っていない状態▪ アノテーションや購入コストの削減を狙う
© GO Inc. 196 Slice discovery:苦手なサブグループを見つけるタスク:苦手なあるサブグループを見つける提出物:サブグループのリスト評価指標:正しく割り当てたデータの割合▪ ラベル付けされていないサブグループで苦手な傾向を発見▪ (例)胸部X線写真からの無気肺の分類における胸腔ドレナージがない珍しいグループ▪ モデルを固定し、苦手なデータの傾向の発見を狙う
© GO Inc. 204種類のコンペが実施中▪ Vision Dataperf(Data selectionタスク)▪ Speech Dataperf(Data selectionタスク)▪ Debugging Dataperf(Data debuggingタスク)▪ Data Acquisition Dataperf(Data Valuationタスク)▪ 開催期間:2023年5月30日から7月1日https://www.dataperf.org/
© GO Inc. 21Vision Dataperf (Data selectionタスク)▪ 画像分類の学習に使うデータを選ぶコンペ▪ 画像は学習コストが高いので一部で高い精度が出せたら嬉しい▪ 大量の画像から最大1000枚を選択するアルゴリズムを作る
© GO Inc. 22Speech Dataperf (Data selectionタスク)▪ 音声認識(キーワードスポッティング)の学習に使うデータを選ぶコンペ▪ 音声は学習コストが高いので一部で高い精度が出せたら嬉しい▪ 大量の音声データから最大25か60のサンプルを選択するアルゴリズムを作る
© GO Inc. 23Debugging Dataperf (Data debuggingタスク)▪ 画像分類データセット内のノイズを見つけるコンペ▪ ノイズ(ラベルが正しくないデータ)があると精度が下がるが全部修正は大変なので、優先順位を付けられると嬉しい▪ ノイズがあるかどうか順位付けするアルゴリズムを作る▪ ある精度に達するまでに何サンプル修正したかどうかで競う
© GO Inc. 24Data Acquisition Dataperf (Data valuationタスク)▪ データセットの選び方を競うコンペ▪ 販売されているデータセットを全部買って試すのは多額の費用がかかるので、うまく質の高いものを選べると嬉しい▪ データセットの購入戦略アルゴリズムを考える▪ NLPのデータセットが対象となる
© GO Inc. 2505 まとめ
© GO Inc. 26まとめ▪ 機械学習の能力の発展のためにはデータの改善が必要▪ 改善するためには定量評価が必要であるため、DataPerfによるData-Centric AIのベンチマークが登場した
© GO Inc. 27We’re Hiring!▪ データ&モデル両方大切にして開発しています▪ エンジニアはフルリモートOKです▪ カジュアル面談お気軽にお声がけくださいhttps://hrmos.co/pages/goinc/jobs?category=1342449154655301632
© GO Inc.文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください