GO TechTalk #20 Deep Dive into AI - 次世代AIドラレコサービス編 で発表した資料です。
■ YouTube https://www.youtube.com/live/R3r0CLhFoq8?feature=share&t=2910
■ connpass https://jtx.connpass.com/event/287383/
危険運転検知のData-Centric AIな取り組み2023.07.11Fumihiko TakahashiGO株式会社
View Slide
© GO Inc. 2自己紹介GO株式会社データサイエンティスト / 高橋 文彦● 新卒で大手ポータルサイトを運営する会社に入社し自然言語処理を用いた研究開発に従事。● 2018年に現職に転職し、タクシー到着時間予測モデルの開発や新規事業立ち上げをチームマネージャーとして牽引する。● 2021年から『DRIVE CHART』の危険イベント検知の開発に従事。● 国際会議のコンペにおいて入賞(SIGSPATIAL 2021 GISCUP 6位,SIGIR 2018 workshop 2位)。
© GO Inc.● 運転中に一定時間以上正面を注視していないない危険な状態● 時系列データとして考えCNN+RNNで脇見確率を推定『DRIVE CHART』の脇見検知の開発3※ デモ動画
© GO Inc.● モデル、後処理による改善○ モデルアーキテクチャの変更■ 問題点に対する直接的な改善がしづらい○ 後処理ロジックの追加■ 実装が複雑になる● データによる改善○ 学習データの追加○ データクリーニング脇見検知の改善の取り組みデータによる改善が問題に対して直接的な改善かつ実装の変更も不要今日話すテーマ4
© GO Inc.● Unlabeled dataは大量にあるが、アノテーションのコストが高い○ 1分の動画をアノテーションするのに平均5分○ ランダムに取得した動画に「脇見」が含まれるのは稀● 闇雲に学習データを追加しても効率が悪い○ 現行のモデルを一次フィルタとしてFalse Positive(誤検知)を集めるのは容易だが、False Negative(検出漏れ)を集めるのは困難いかに学習データを集めるか?効率的な学習データ収集 ➡ Active Learning を利用5
© GO Inc.(unlabeled dataから)学習に有用なデータを選択する手法できるだけ少ないコストでモデルのパフォーマンスを上げる※ 学習データの削減を目的にlabeled dataにALを適用することもあるActive Learning (AL) = 能動学習 とは?出典:Active Learning Literature Survey, 2009, Burr Settles6
© GO Inc.モデルが確信を持っていない不確かなデータを選択最もベーシックな手法● Entropy based method○ エントロピー(不確かさ)最大のデータを選ぶ● Least Confident○ ラベルの確率の最大値が最小になるデータを選択Active Learning の手法紹介:Uncertainty SamplingA B C D scorex1 0.10 0.10 0.10 0.70 0.70x2 0.28 0.26 0.22 0.24 0.28A B C D scorex1 0.10 0.10 0.10 0.70 0.94x2 0.25 0.25 0.25 0.25 1.39y_i: 各クラスのラベル今回使う手法7x2が選ばれるx2が選ばれる
© GO Inc.画像分類タスクに対してALとランダムサンプリングを比較する実験● CIFAR-10 を使用○ 10クラス○ train: 50,000枚、test: 10,000枚○ 全てのラベルは同数● タスク○ 簡易化のため、catをtargetとするbinary classification task● モデル○ pytorchチュートリアル のモデルを利用○ シンプルなCNN2層 + FC3層トイデータでのActive Learningの実験出典:https://www.cs.toronto.edu/~kriz/cifar.html8
© GO Inc.1. trainデータからランダムに6000枚選択してベースモデルを学習2. 残りのtrainデータをpooled dataとする3. step毎にpooled dataからN(=2000)枚ずつ取り出して学習データに加えモデル学習a. 取り出すN件はALを使って選択4. モデルをtestデータで評価して、3に戻るa. PR-AUCで評価実験の手順モデルの評価ベースモデルを学習学習データでモデルを学習pooled dataからN件取り出し学習データに追加9
© GO Inc.● entropy methodはrandomより少ないデータ追加でPR-AUCが高くなる実験の結果step毎のPR-AUC step毎の追加された画像のラベル10● 優先的に cat と dog のラベルが追加○ dog は直感的にもhard exampleになりそう● 優先度が低いのはautomobile、airplane、ship
© GO Inc.ということで、効率的な学習データ収集にActive Learningが有効そう脇見検出タスクにActive Learningを適用!11しかし...
© GO Inc.既存のvalidationデータセットで評価したところ、精度の改善幅が小さいActive Learningを適用したが...学習データPR-AUC(相対値)PR-AUC(high precision area)(相対値)既存trainデータ 100.00 100.00既存trainデータ + AL収集データ 100.92 106.62※ PR-AUC(high precision area)RecallPrecision12
© GO Inc.● 前提○ 既存のデータセットは、あるフィルタ処理(not ランダムサンプル)で集めたデータを分割してtrain, validationに使用● 原因の考察○ ALで集めたデータが既存のデータセットと異なる分布・傾向○ 既存データセットにALで収集したようなデータが少ないため、validationデータで評価精度の改善が小さい○ 実際の母集団のデータで改善幅はもっと大きいのではないか改善幅が小さい原因の考察既存データセット一次フィルタActive Learing新データセット母集団データ既存データセットにALで収集したようなデータが少ない13
© GO Inc.母集団からランダムに集めた動画で目検評価を実施Active Learning適用の評価14学習データ母集団ランダムサンプリングでの評価既存データセットでの評価Precision(相対値)PR-AUC(相対値)※再記PR-AUC(high precision area)(相対値)※再記既存trainデータ 100.00 100.00 100.00既存trainデータ + AL収集データ136.61 100.92 106.62既存データセットで改善が確認できなくても、母集団で改善していることがある大幅に改善
© GO Inc. 15Active Learningを適用して改善したモデルの出力から、目検評価でtruepositive となったイベント種類の分布を確認これまで検出漏れしていたイベント種類についても検出できるようになったActive Learning適用の効果イベント種類Aの割合が増加※イベント種類A~Eは、脇見正解データの中にも様々な挙動の種別がありこの分類を表す。
© GO Inc.● 『DRIVE CHART』の脇見イベント検出の紹介○ CNN-RNNを用いたframe単位の脇見推定● Active Learningの紹介○ トイデータを使ったUncertainty Samplingの実験● Active Learning実用におけるはまりケースの紹介○ 既存データセットでの評価の落とし穴○ 母集団ランダムサンプリングに対する定性評価○ これまで検出漏れしていたイベント種類を検出まとめ既存データセット一次フィルタActive Learing新データセット母集団データ既存データセットにALで収集したようなデータが少ない16
© GO Inc.● Active Learning Literature Survey, 2009, Burr Settles, ComputerSciences Technical Report 1648● Active Learning 入門,https://www.slideshare.net/shuyo/introduction-to-active-learning-25787487● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌参考17
文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。© GO Inc. 18