$30 off During Our Annual Pro Sale. View Details »

危険運転検知のData-Centric AIな取り組み

危険運転検知のData-Centric AIな取り組み

GO TechTalk #20 Deep Dive into AI - 次世代AIドラレコサービス編 で発表した資料です。

■ YouTube
https://www.youtube.com/live/R3r0CLhFoq8?feature=share&t=2910

■ connpass
https://jtx.connpass.com/event/287383/

GO Inc. dev

July 14, 2023
Tweet

More Decks by GO Inc. dev

Other Decks in Technology

Transcript

  1. 危険運転検知の
    Data-Centric AIな取り組み
    2023.07.11
    Fumihiko Takahashi
    GO株式会社

    View Slide

  2. © GO Inc. 2
    自己紹介
    GO株式会社
    データサイエンティスト / 高橋 文彦
    ● 新卒で大手ポータルサイトを運営する会社に入社し自然言語処理を用
    いた研究開発に従事。
    ● 2018年に現職に転職し、タクシー到着時間予測モデルの開発や新規
    事業立ち上げをチームマネージャーとして牽引する。
    ● 2021年から『DRIVE CHART』の危険イベント検知の開発に従事。
    ● 国際会議のコンペにおいて入賞(SIGSPATIAL 2021 GISCUP 6位,
    SIGIR 2018 workshop 2位)。

    View Slide

  3. © GO Inc.
    ● 運転中に一定時間以上正面を注視していな
    いない危険な状態
    ● 時系列データとして考えCNN+RNNで脇見
    確率を推定
    『DRIVE CHART』の脇見検知の開発
    3
    ※ デモ動画

    View Slide

  4. © GO Inc.
    ● モデル、後処理による改善
    ○ モデルアーキテクチャの変更
    ■ 問題点に対する直接的な改善がしづらい
    ○ 後処理ロジックの追加
    ■ 実装が複雑になる
    ● データによる改善
    ○ 学習データの追加
    ○ データクリーニング
    脇見検知の改善の取り組み
    データによる改善が問題に対して直接的な改善かつ実装の変更も不要
    今日話す
    テーマ
    4

    View Slide

  5. © GO Inc.
    ● Unlabeled dataは大量にあるが、アノテーションのコストが高い
    ○ 1分の動画をアノテーションするのに平均5分
    ○ ランダムに取得した動画に「脇見」が含まれるのは稀
    ● 闇雲に学習データを追加しても効率が悪い
    ○ 現行のモデルを一次フィルタとしてFalse Positive(誤検知)を集めるのは容易だ
    が、False Negative(検出漏れ)を集めるのは困難
    いかに学習データを集めるか?
    効率的な学習データ収集
       ➡ Active Learning を利用
    5

    View Slide

  6. © GO Inc.
    (unlabeled dataから)学習に有用なデータを
    選択する手法
    できるだけ少ないコストでモデルのパフォー
    マンスを上げる
    ※ 学習データの削減を目的にlabeled dataにALを
    適用することもある
    Active Learning (AL) = 能動学習 とは?
    出典:Active Learning Literature Survey, 2009, Burr Settles
    6

    View Slide

  7. © GO Inc.
    モデルが確信を持っていない不確かなデータを選択
    最もベーシックな手法
    ● Entropy based method
    ○ エントロピー(不確かさ)最大のデータを選ぶ
    ● Least Confident
    ○ ラベルの確率の最大値が最小になるデータを選択
    Active Learning の手法紹介:Uncertainty Sampling
    A B C D score
    x1 0.10 0.10 0.10 0.70 0.70
    x2 0.28 0.26 0.22 0.24 0.28
    A B C D score
    x1 0.10 0.10 0.10 0.70 0.94
    x2 0.25 0.25 0.25 0.25 1.39
    y_i: 各クラスのラベル
    今回使う
    手法
    7
    x2
    が選ばれる
    x2
    が選ばれる

    View Slide

  8. © GO Inc.
    画像分類タスクに対してALとランダムサンプリングを比較する実験
    ● CIFAR-10 を使用
    ○ 10クラス
    ○ train: 50,000枚、test: 10,000枚
    ○ 全てのラベルは同数
    ● タスク
    ○ 簡易化のため、
    catをtargetとするbinary classification task
    ● モデル
    ○ pytorchチュートリアル のモデルを利用
    ○ シンプルなCNN2層 + FC3層
    トイデータでのActive Learningの実験
    出典:https://www.cs.toronto.edu/~kriz/cifar.html
    8

    View Slide

  9. © GO Inc.
    1. trainデータからランダムに6000枚選択してベースモデルを学習
    2. 残りのtrainデータをpooled dataとする
    3. step毎にpooled dataからN(=2000)枚ずつ取り出して学習データに加えモデル学習
    a. 取り出すN件はALを使って選択
    4. モデルをtestデータで評価して、3に戻る
    a. PR-AUCで評価
    実験の手順
    モデルの
    評価
    ベースモデル
    を学習
    学習データで
    モデルを学習
    pooled dataから
    N件取り出し
    学習データに追加
    9

    View Slide

  10. © GO Inc.
    ● entropy methodはrandomより少な
    いデータ追加でPR-AUCが高くなる
    実験の結果
    step毎のPR-AUC step毎の追加された画像のラベル
    10
    ● 優先的に cat と dog のラベルが追加
    ○ dog は直感的にもhard exampleになりそ

    ● 優先度が低いのはautomobile、
    airplane、ship

    View Slide

  11. © GO Inc.
    ということで、
    効率的な学習データ収集に
    Active Learningが有効そう
    脇見検出タスクにActive Learningを適用!
    11
    しかし...

    View Slide

  12. © GO Inc.
    既存のvalidationデータセットで評価したところ、精度の改善幅が小さい
    Active Learningを適用したが...
    学習データ
    PR-AUC
    (相対値)
    PR-AUC(high precision area)
    (相対値)
    既存trainデータ 100.00 100.00
    既存trainデータ + AL収集データ 100.92 106.62
    ※ PR-AUC(high precision area)
    Recall
    Precision
    12

    View Slide

  13. © GO Inc.
    ● 前提
    ○ 既存のデータセットは、あるフィルタ処理(not ランダムサンプル)で集めたデータを分割して
    train, validationに使用
    ● 原因の考察
    ○ ALで集めたデータが既存のデータセットと異なる分布・傾向
    ○ 既存データセットにALで収集したようなデータが少ないため、validationデータで評価精度の改
    善が小さい
    ○ 実際の母集団のデータで改善幅はもっと大きいのではないか
    改善幅が小さい原因の考察
    既存データセット
    一次フィルタ
    Active Learing
    新データセット
    母集団
    データ
    既存データセットに
    ALで収集したような
    データが少ない
    13

    View Slide

  14. © GO Inc.
    母集団からランダムに集めた動画で目検評価を実施
    Active Learning適用の評価
    14
    学習データ
    母集団ランダムサンプリングでの
    評価
    既存データセットでの評価
    Precision
    (相対値)
    PR-AUC
    (相対値)※再記
    PR-AUC(high precision area)
    (相対値)※再記
    既存trainデータ 100.00 100.00 100.00
    既存trainデータ + AL収集デー

    136.61 100.92 106.62
    既存データセットで改善が確認できなくても、
    母集団で改善していることがある
    大幅に
    改善

    View Slide

  15. © GO Inc. 15
    Active Learningを適用して改善したモ
    デルの出力から、目検評価でtrue
    positive となったイベント種類の分布を
    確認
    これまで検出漏れしていたイベント種類
    についても検出できるようになった
    Active Learning適用の効果
    イベント種類A
    の割合が
    増加
    ※イベント種類A~Eは、脇見正解データの中に
    も様々な挙動の種別がありこの分類を表す。

    View Slide

  16. © GO Inc.
    ● 『DRIVE CHART』の脇見イベント検出の紹介
    ○ CNN-RNNを用いたframe単位の脇見推定
    ● Active Learningの紹介
    ○ トイデータを使ったUncertainty Samplingの実験
    ● Active Learning実用におけるはまりケースの紹介
    ○ 既存データセットでの評価の落とし穴
    ○ 母集団ランダムサンプリングに対する定性評価
    ○ これまで検出漏れしていたイベント種類を検出
    まとめ
    既存データセット
    一次フィルタ
    Active Learing
    新データセット
    母集団
    データ
    既存データセットにAL
    で収集したような
    データが少ない
    16

    View Slide

  17. © GO Inc.
    ● Active Learning Literature Survey, 2009, Burr Settles, Computer
    Sciences Technical Report 1648
    ● Active Learning 入門,
    https://www.slideshare.net/shuyo/introduction-to-active-learnin
    g-25787487
    ● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌
    参考
    17

    View Slide

  18. 文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。
    © GO Inc. 18

    View Slide