Upgrade to Pro — share decks privately, control downloads, hide ads and more …

危険運転検知のData-Centric AIな取り組み

危険運転検知のData-Centric AIな取り組み

GO TechTalk #20 Deep Dive into AI - 次世代AIドラレコサービス編 で発表した資料です。

■ YouTube
https://www.youtube.com/live/R3r0CLhFoq8?feature=share&t=2910

■ connpass
https://jtx.connpass.com/event/287383/

GO Inc. dev

July 14, 2023
Tweet

More Decks by GO Inc. dev

Other Decks in Technology

Transcript

  1. © GO Inc. 2 自己紹介 GO株式会社 データサイエンティスト / 高橋 文彦

    • 新卒で大手ポータルサイトを運営する会社に入社し自然言語処理を用 いた研究開発に従事。 • 2018年に現職に転職し、タクシー到着時間予測モデルの開発や新規 事業立ち上げをチームマネージャーとして牽引する。 • 2021年から『DRIVE CHART』の危険イベント検知の開発に従事。 • 国際会議のコンペにおいて入賞(SIGSPATIAL 2021 GISCUP 6位, SIGIR 2018 workshop 2位)。
  2. © GO Inc. • モデル、後処理による改善 ◦ モデルアーキテクチャの変更 ▪ 問題点に対する直接的な改善がしづらい ◦

    後処理ロジックの追加 ▪ 実装が複雑になる • データによる改善 ◦ 学習データの追加 ◦ データクリーニング 脇見検知の改善の取り組み データによる改善が問題に対して直接的な改善かつ実装の変更も不要 今日話す テーマ 4
  3. © GO Inc. • Unlabeled dataは大量にあるが、アノテーションのコストが高い ◦ 1分の動画をアノテーションするのに平均5分 ◦ ランダムに取得した動画に「脇見」が含まれるのは稀

    • 闇雲に学習データを追加しても効率が悪い ◦ 現行のモデルを一次フィルタとしてFalse Positive(誤検知)を集めるのは容易だ が、False Negative(検出漏れ)を集めるのは困難 いかに学習データを集めるか? 効率的な学習データ収集    ➡ Active Learning を利用 5
  4. © GO Inc. (unlabeled dataから)学習に有用なデータを 選択する手法 できるだけ少ないコストでモデルのパフォー マンスを上げる ※ 学習データの削減を目的にlabeled

    dataにALを 適用することもある Active Learning (AL) = 能動学習 とは? 出典:Active Learning Literature Survey, 2009, Burr Settles 6
  5. © GO Inc. モデルが確信を持っていない不確かなデータを選択 最もベーシックな手法 • Entropy based method ◦

    エントロピー(不確かさ)最大のデータを選ぶ • Least Confident ◦ ラベルの確率の最大値が最小になるデータを選択 Active Learning の手法紹介:Uncertainty Sampling A B C D score x1 0.10 0.10 0.10 0.70 0.70 x2 0.28 0.26 0.22 0.24 0.28 A B C D score x1 0.10 0.10 0.10 0.70 0.94 x2 0.25 0.25 0.25 0.25 1.39 y_i: 各クラスのラベル 今回使う 手法 7 x2 が選ばれる x2 が選ばれる
  6. © GO Inc. 画像分類タスクに対してALとランダムサンプリングを比較する実験 • CIFAR-10 を使用 ◦ 10クラス ◦

    train: 50,000枚、test: 10,000枚 ◦ 全てのラベルは同数 • タスク ◦ 簡易化のため、 catをtargetとするbinary classification task • モデル ◦ pytorchチュートリアル のモデルを利用 ◦ シンプルなCNN2層 + FC3層 トイデータでのActive Learningの実験 出典:https://www.cs.toronto.edu/~kriz/cifar.html 8
  7. © GO Inc. 1. trainデータからランダムに6000枚選択してベースモデルを学習 2. 残りのtrainデータをpooled dataとする 3. step毎にpooled

    dataからN(=2000)枚ずつ取り出して学習データに加えモデル学習 a. 取り出すN件はALを使って選択 4. モデルをtestデータで評価して、3に戻る a. PR-AUCで評価 実験の手順 モデルの 評価 ベースモデル を学習 学習データで モデルを学習 pooled dataから N件取り出し 学習データに追加 9
  8. © GO Inc. • entropy methodはrandomより少な いデータ追加でPR-AUCが高くなる 実験の結果 step毎のPR-AUC step毎の追加された画像のラベル

    10 • 優先的に cat と dog のラベルが追加 ◦ dog は直感的にもhard exampleになりそ う • 優先度が低いのはautomobile、 airplane、ship
  9. © GO Inc. 既存のvalidationデータセットで評価したところ、精度の改善幅が小さい Active Learningを適用したが... 学習データ PR-AUC (相対値) PR-AUC(high

    precision area) (相対値) 既存trainデータ 100.00 100.00 既存trainデータ + AL収集データ 100.92 106.62 ※ PR-AUC(high precision area) Recall Precision 12
  10. © GO Inc. • 前提 ◦ 既存のデータセットは、あるフィルタ処理(not ランダムサンプル)で集めたデータを分割して train, validationに使用

    • 原因の考察 ◦ ALで集めたデータが既存のデータセットと異なる分布・傾向 ◦ 既存データセットにALで収集したようなデータが少ないため、validationデータで評価精度の改 善が小さい ◦ 実際の母集団のデータで改善幅はもっと大きいのではないか 改善幅が小さい原因の考察 既存データセット 一次フィルタ Active Learing 新データセット 母集団 データ 既存データセットに ALで収集したような データが少ない 13
  11. © GO Inc. 母集団からランダムに集めた動画で目検評価を実施 Active Learning適用の評価 14 学習データ 母集団ランダムサンプリングでの 評価

    既存データセットでの評価 Precision (相対値) PR-AUC (相対値)※再記 PR-AUC(high precision area) (相対値)※再記 既存trainデータ 100.00 100.00 100.00 既存trainデータ + AL収集デー タ 136.61 100.92 106.62 既存データセットで改善が確認できなくても、 母集団で改善していることがある 大幅に 改善
  12. © GO Inc. 15 Active Learningを適用して改善したモ デルの出力から、目検評価でtrue positive となったイベント種類の分布を 確認

    これまで検出漏れしていたイベント種類 についても検出できるようになった Active Learning適用の効果 イベント種類A の割合が 増加 ※イベント種類A~Eは、脇見正解データの中に も様々な挙動の種別がありこの分類を表す。
  13. © GO Inc. • 『DRIVE CHART』の脇見イベント検出の紹介 ◦ CNN-RNNを用いたframe単位の脇見推定 • Active

    Learningの紹介 ◦ トイデータを使ったUncertainty Samplingの実験 • Active Learning実用におけるはまりケースの紹介 ◦ 既存データセットでの評価の落とし穴 ◦ 母集団ランダムサンプリングに対する定性評価 ◦ これまで検出漏れしていたイベント種類を検出 まとめ 既存データセット 一次フィルタ Active Learing 新データセット 母集団 データ 既存データセットにAL で収集したような データが少ない 16
  14. © GO Inc. • Active Learning Literature Survey, 2009, Burr

    Settles, Computer Sciences Technical Report 1648 • Active Learning 入門, https://www.slideshare.net/shuyo/introduction-to-active-learnin g-25787487 • 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌 参考 17