Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeurIPS Data-Centric AI Workshop

Asei Sugiyama
February 13, 2022

NeurIPS Data-Centric AI Workshop

2021−12-14 に開かれた Data Centric AI Workshop の要約と感想です。気になった方はこちらから原典にあたってみてください。 https://datacentricai.org/

Asei Sugiyama

February 13, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. NeurIPS Data-Centric AI Workshop
    Asei Sugiyama

    View full-size slide

  2. 主旨
    NeurIPS Data-Centric AI Workshop の内容とその感想を共有します

    View full-size slide

  3. TOC
    Data Centric AI <-
    HCI and Crowdsourcing for DCAI
    DataPerf (pp. 347-)
    Technical Debt in ML: A Data-Centric View (pp. 761-)
    Finding millions of label errors with Cleanlab (pp. 972-)
    Lightning Talks
    所感

    View full-size slide

  4. Data Centric AI
    A Chat with Andrew on MLOps
    Introduction to Machine Learning in Production
    Data-Centric AI Competition
    NeurIPS Data Centric AI Workshop
    Topics of Interest
    Invited Talks

    View full-size slide

  5. A Chat with Andrew on
    MLOps
    Andrew Ng が開催したオン
    ラインイベント
    アルゴリズムの変更より
    も、データの更新を行った
    ほうがモデルの性能が高ま
    った事例の共有
    Q&A でモデルに関する議論
    が発生
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

    View full-size slide

  6. Introduction to
    Machine Learning in
    Production
    DeepLearning.AI による
    Coursera のコース
    機械学習プロジェクトにお
    けるデータ管理について、
    Andrew Ng の経験を共有
    非常に良いコース
    Introduction to Machine Learning in Production

    View full-size slide

  7. Data-Centric AI
    Competition
    モデルを固定しデータを更
    新することでモデルの性能
    更新を行うコンペ
    個人やチームも参加
    Google Dialogflow の
    「Spreadshee で全部目視
    した」アプローチが好き
    Data-Centric AI Competition

    View full-size slide

  8. NeurIPS Data Centric
    AI Workshop
    Andrew Ng らによるオンラ
    インワークショップ
    2021-Dec-14 開催
    NeurIPS Data-Centric AI Workshop

    View full-size slide

  9. Topics of Interest
    New Datasets in areas
    Tools & methodologies
    Algorithms for working with limited labeled data and improving label
    efficiency
    Responsible AI development

    View full-size slide

  10. Invited Talks
    HCI and Crowdsourcing for DCAI
    Past/Future of data centric AI
    DataPerf - Benchmarking Data Centric AI
    FAIR Dynabench
    The Future of Data Centric AI
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab

    View full-size slide

  11. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI <-
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View full-size slide

  12. HCI and Crowdsourcing for DCAI

    View full-size slide

  13. きれいなデータを
    どう手に入れる?
    きれいなデータは3
    倍程度効果的
    クラウドソーシン
    グで手に入ると思
    い込みがち
    API 経由で手に入
    ると思い込みがち

    View full-size slide

  14. アノテーターの訓練が必

    クラウドソーシングするよ
    りも雇用して訓練したほう
    が安上がりになる
    フィードバックすることが
    重要

    View full-size slide

  15. メンタルモデル
    システム開発とは異なる
    アノテーターに非があると
    考えるのではだめ
    アノテーターに説明が不足
    していると考えるべき

    View full-size slide

  16. 多数決ではだめ
    「有害だ」というラベルは
    38% の割合でアノテーター
    間で一致しない
    マイノリティの意見が覆い
    隠されてしまう

    View full-size slide

  17. アノテーターは評価されるべき

    View full-size slide

  18. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf <-
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View full-size slide

  19. MLPerf
    機械学習システムのベンチ
    マーク
    2021-12-01 に v1.1 の結果
    が公開

    View full-size slide

  20. Data Perf
    ML Commons のワーキング
    グループの1つ
    さまざまな組織が参加して
    いる

    View full-size slide

  21. Daggle is
    missing
    機械学習
    コンペは
    ある
    データセ
    ットコン
    ペはない

    View full-size slide

  22. Data Perf の目標
    データについてのベンチマ
    ークの提供

    View full-size slide

  23. 野望 (1/3)
    学習データとテス
    トデータを固定
    モデルを改善する
    のが現在のパラダ
    イム

    View full-size slide

  24. 野望 (2/3)
    モデルとテストデータを固
    定し学習データを改善 (上
    図)
    学習データとモデルを固定
    しテストデータを改善 (下
    図)

    View full-size slide

  25. 野望 (3/3)
    これらすべてを一
    気に改善できるよ
    うにしたい
    2023年辺りにはパ
    ラダイムを作って
    いきたい

    View full-size slide

  26. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View <-
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View full-size slide

  27. Technical Debt in ML: A Data-Centric View

    View full-size slide

  28. 通常の意味で技術的負債を増加/減少させる要因

    View full-size slide

  29. 機械学習は複雑
    通常の問題に加えて、機械
    学習に固有の問題が現れる
    抽象化された境界や振る舞
    いが定義されていない
    リファクタリング、テス
    ト、検証がすべて困難また
    は不可能

    View full-size slide

  30. Behavior Debt
    データによって増える負債
    がある
    不都合でまれな挙動
    リーク
    過去の修正の対応
    etc.
    Train/Test を一様に分割して
    もこれらの挙動は検出でき
    ない

    View full-size slide

  31. どうすべきか (1/2)
    Human Data Interaction
    データの品質の監査
    Data sheets / Data cards の
    作成
    あるべき振る舞いの明確化
    とその検証
    信頼できる人にモデルを攻
    撃し、壊してみるよう依頼

    View full-size slide

  32. どうすべきか (2/2)
    因果関係の利用
    ストレステストのためのデ
    ータの作成と適用
    Counterfactual
    特定の目的のためのデ
    ータ
    適切に分割した
    Train/Test データ

    View full-size slide

  33. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab <-
    Lightning Talks
    所感

    View full-size slide

  34. Finding millions of label errors with Cleanlab

    View full-size slide

  35. Preserve Label Errors in
    Test Sets Destabilize
    Machine Learning
    Benchmarks
    MNIST のラベルの誤りを見
    つける
    5 (3)

    View full-size slide

  36. MNIST には誤りが存在
    しないと扱われがち
    学習用データセットには誤
    りが含まれるのは既知
    テスト用データセットも怪
    しい

    View full-size slide

  37. labelerrors.com
    いろいろなデータセットを
    見てみるとテスト用データ
    セットにも怪しいものが見
    つかる
    ImageNet
    QuickDraw
    Amazon Review
    etc.

    View full-size slide

  38. 手法 & 結果
    1. Confident Leraning で怪し
    そうなものの候補を見つけ

    2. Amazon Mechanical Turk
    で人手で検証
    平均して 3.4% のエラーが
    見つかった

    View full-size slide

  39. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks <-
    所感

    View full-size slide

  40. Lightning Talks
    Highly Efficient Representation and Active Learning Framework and Its
    Application to Imbalanced Medical Image Classification
    Sim2Real Docs: Domain Randomization for Documents in Natural
    Scenes using Ray-traced Rendering

    View full-size slide

  41. Highly Efficient
    Representation and Active
    Learning Framework and Its
    Application to Imbalanced
    Medical Image
    Classification
    ResNet-50 で作成した埋め
    込みをもとに Gaussian
    Process で Active Learning
    COVID 患者の X 線写真デー
    タセットに適用
    Highly Efficient Representation and Active Learning Framework and Its
    Application to Imbalanced Medical Image Classification

    View full-size slide

  42. Sim2Real Docs: Domain
    Randomization for
    Documents in Natural
    Scenes using Ray-traced
    Rendering
    紙の撮影画像をシミュレー
    ションによって生成
    Blender によりレイトレー
    スした画像を生成する
    Python ライブラリを提供

    View full-size slide

  43. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感 <-

    View full-size slide

  44. 所感
    Data-Centric AI は新しいものではない
    データセットの品質を図る手法の欠如
    もっと多様な現場の話を聞きたい

    View full-size slide

  45. Data-Centric AI は新しいものではない
    Data-Centric AI のコンペ参加者の感想「いつも仕事でやっていることと
    同じだった」
    問題設定としても Human in the Loop, Active Learning でやっているこ
    とにほぼ同じ
    よく使われているデータセットのラベルに誤りが含まれているのは既知

    View full-size slide

  46. データセットの品質を図る手法の欠如
    データセットそのものの品質を測る手段がない
    非構造化データの validation の手段も相変わらずない
    モデルを用いる方法はあるものの (Confident Learning) データセットの
    品質を測る方法はモデルと独立であってほしい
    Gaussian Process のように別のモデルを使うのは手ではあるものの、か
    んたんではない

    View full-size slide

  47. もっと多様な現場の話を聞きたい
    「大規模データセットをクラウドソーシングにより構築する」という問
    題意識が多いように感じる
    身の回りを見渡すと結構そうじゃない
    Public なデータセットと、産業特化のデータセットの中間の話を聞きた

    View full-size slide

  48. いろいろな話を聞くための活動をしていきます

    View full-size slide