Slide 1

Slide 1 text

第1章 Data-centric AIの概要 データの品質が低いと何が困るのか 第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会~

Slide 2

Slide 2 text

自己紹介 2 宮澤 一之 GO株式会社 AI技術開発部 AI研究開発第二グループ グループマネージャー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw

Slide 3

Slide 3 text

第1章 Data-centric AIの概要 1.1 Data-centric AIとは ……………………………………… 1.1.1 Model-centric AIとData-centric AI 1.1.2 ラベルの一貫性 1.1.3 データセットサイズとデータ品質との関係 1.1.4 MLOpsの役割 1.1.5 ビッグデータからグッドデータへ 1.1.6 まとめ 1.2 データセットのサイズとモデルの性能の関係 …………… 1.3 データの品質の重要性 ……………………………………… 1.3.1 AIシステムにおける品質特性 1.3.2 データの品質が与える影響 1.4 おわりに 3 Data-centric AIという考え方を世に広めるきっかけと なった2021年3月のAndrew Ng先生による講演を基に Data-centric AIの概要を説明 https://www.youtube.com/live/06-AZXmwHjo ニューラルネットワークのスケーリング則を通して データセットのサイズの重要性について説明 AI開発のための標準的なガイドラインを参照してAI開 発におけるデータの品質について説明し、データの品 質に関する研究例を挙げて品質の重要性についてより 具体的に理解

Slide 4

Slide 4 text

データの品質が低いと何が困るのか 4 データの品質が低いと、AIの開発や運用においてさまざまな問題が発生します。以下に主要な点を挙げます。 モデルの精度低下 ノイズが多い、あるいは誤ったラベルが付与されたデータで学習すると、AIモデルは正確なパターンを捉えることが難 しくなり、結果として予測精度や分類精度が大幅に低下します。 バイアスの導入 偏ったデータや不均衡なデータセットを使用すると、特定のグループに対するバイアスがモデルに反映され、結果とし て不公平な判断や偏見を含む出力が生成されるリスクが高まります。 過学習または未学習のリスク データの質が低いと、モデルが一部の誤ったパターンに過度に適応してしまう「過学習」が発生したり、必要な情報を 十分に学習できずに「未学習」の状態になる可能性があります。どちらも実際のデータに対して適切な予測を行う妨げ となります。 汎用性の低下 トレーニングデータが現実世界の多様な状況を十分に反映していない場合、実運用時に遭遇するデータに対してうまく 対応できず、性能が大きく低下する可能性があります。 エラーや誤判断のリスク増大 欠損値やエラーの多いデータで学習を行うと、AIシステムが誤った判断を下すリスクが高まり、特に医療、金融、交通 などのクリティカルな分野では深刻な問題を引き起こす可能性があります。 これらの理由から、AI開発においてはデータの収集段階から品質管理、前処理、クリーニングを徹底することが極めて 重要となります。高品質なデータを用いることで、モデルの信頼性や汎用性が向上し、実際の応用においても安全かつ 効果的なパフォーマンスが期待できます。 AIの開発において、データの品質が低いと何が困りますか? ChatGPT o3-mini-high

Slide 5

Slide 5 text

データの品質が低いと何が困るのか 5 データの品質が低いと、AIの開発や運用においてさまざまな問題が発生します。以下に主要な点を挙げます。 モデルの精度低下 ノイズが多い、あるいは誤ったラベルが付与されたデータで学習すると、AIモデルは正確なパターンを捉えることが難 しくなり、結果として予測精度や分類精度が大幅に低下します。 バイアスの導入 偏ったデータや不均衡なデータセットを使用すると、特定のグループに対するバイアスがモデルに反映され、結果とし て不公平な判断や偏見を含む出力が生成されるリスクが高まります。 過学習または未学習のリスク データの質が低いと、モデルが一部の誤ったパターンに過度に適応してしまう「過学習」が発生したり、必要な情報を 十分に学習できずに「未学習」の状態になる可能性があります。どちらも実際のデータに対して適切な予測を行う妨げ となります。 汎用性の低下 トレーニングデータが現実世界の多様な状況を十分に反映していない場合、実運用時に遭遇するデータに対してうまく 対応できず、性能が大きく低下する可能性があります。 エラーや誤判断のリスク増大 欠損値やエラーの多いデータで学習を行うと、AIシステムが誤った判断を下すリスクが高まり、特に医療、金融、交通 などのクリティカルな分野では深刻な問題を引き起こす可能性があります。 これらの理由から、AI開発においてはデータの収集段階から品質管理、前処理、クリーニングを徹底することが極めて 重要となります。高品質なデータを用いることで、モデルの信頼性や汎用性が向上し、実際の応用においても安全かつ 効果的なパフォーマンスが期待できます。 AIの開発において、データの品質が低いと何が困りますか? ChatGPT o3-mini-high CIFAR-10データセット(10クラス) 学習データのラベル の一部をランダムに 他クラスに置き換え てノイズを加える ノイズ割合 テストデータのエラー率 当てずっぽう C. Zhang+, Understanding deep learning requires rethinking generalization, ICLR 2017 https://www.cs.toronto.edu/~kriz/cifar.html 図表は論文からの引用(一部編集を含む)です

Slide 6

Slide 6 text

テストデータの品質に着目した研究 6 テストデータにおけるラベルミスの蔓延による機械学習ベンチマークの不安定化 NeurIPS 2021 Paper Code ● 10種類の機械学習ベンチマークのテストデータに広くラベルミスが存在することを発見 ● テストデータのラベルミスがベンチマーク結果に与える影響を分析し、高性能なモデルほど誤った ラベルを持つデータに対して高い精度を示す一方、ラベルを修正すると精度が低下することを発見 ● 低品質なテストデータが誤ったモデル選択や無意味な性能改善への投資につながる可能性を示唆

Slide 7

Slide 7 text

機械学習ベンチマークにおけるラベルミスの特定 7 ● 10種類の機械学習ベンチマークデータセットのテストデータにおけるラベルミスを特定 ● 研究目的で広く一般に使われてきたベンチマークのテストデータに平均3.3%のラベルミスが存在 ● 予算や時間の制約が厳しい実応用のデータセット構築ではラベルミスはさらに混入しやすくなる 1. Confident Learning*でラベルミスの可能性が高いサンプルを候補として特定 2. 全て or 一部の候補に対して実際にラベルミスかどうかをクラウドソーシングにより人間が確認 3. 2. の結果を基に各ベンチマークのテストデータにおけるラベルミスの割合を計算 特定されたラベルミスの例 各ベンチマークのテストデータにおけるラベルミスの割合 * C. Northcutt+, Confident learning: Estimating uncertainty in dataset labels, Journal of Artificial Intelligence Research, 2021 図表は論文からの引用(一部編集を含む)です

Slide 8

Slide 8 text

ラベルミスの修正によるベンチマーク結果の変化 8 画像分類ベンチマーク(ImageNet、CIFAR-10)でパラメータ数の異なる複数のモデルを比較した結果 A vs. B C vs. C’ C vs. C’ ● A vs. B:オリジナルのテストデータではキャパシティ(≒ パ ラメータ数)が大きいモデルほど高い性能を示し、テスト データからラベルミスを取り除いてもその傾向は維持される ● C vs. C’:ラベルが誤ったままの状態ではキャパシティが大き いモデルほど高い性能を示すが、正しいラベルに修正すると 傾向が逆転する(Nasnetは34モデル中1位→29位に転落) 約12M 約88M 図表は論文からの引用(一部編集を含む)です ラベルミスなし: B ラベルミスあり: C テストデータ(オリジナル): A ラベルミスなし: C’ ミスを修正

Slide 9

Slide 9 text

考察と課題提起 9 ● 一般的に性能が高いとされているキャパシティが大きいモデルは、テストデータにおける誤ったラ ベルを誤ったまま予測してしまう傾向にある ● 統一的なプロセスで構築されたデータセットから学習データとテストデータを分離する場合、元の データセットにシステマティックなノイズがあるとそれが両データに伝搬する ● キャパシティが大きいモデルは、学習データに存在するノイズパターンを学習してしまい、結果と してテストデータに同様に存在するノイズパターンも予測できるようになる ノイズの割合が大きい低品質なデータセットではこの傾向がさらに強くなり、 ノイズへの過適合と本質的な性能改善を区別できず、前者は不適切なモデルの デプロイや無意味な性能改善への投資につながる

Slide 10

Slide 10 text

まとめ 10 ● 広く一般に使われている10種類の機械学習ベンチマークのテストデータにおいて、平均して3.3%の ラベルミスが存在 ● ベンチマークにおいて高い性能を示すように見えるキャパシティの大きいモデルは、データセット 全体に存在するノイズパターンを学習してしまっている可能性がある ● テストデータの品質低下は、複数のモデルから最適な(最も汎化性能が高いと思われる)モデルを 選ぶ際に誤ったモデルの選択や、ベンチマーク結果だけを頼りにModel-centricなアプローチを続け た際に無意味な投資につながる ● Confident Learningなどの利用により誤ったラベルを持つサンプルを特定して修正するほか、あら かじめテストデータ構築のためのリソースを大きく確保しておき(学習データよりも)高品質なテ ストデータを準備するなどの解決策が考えられる 他の事例や話題など、AI開発におけるデータ品質の重要性に関して より詳しく知りたい方はぜひ書籍をご参照ください!