Upgrade to Pro — share decks privately, control downloads, hide ads and more …

E2E自動運転の実現に向けたMLOpsの取り組み

Masahiro Yasumoto
November 20, 2024
3.6k

 E2E自動運転の実現に向けたMLOpsの取り組み

第11回 Data-Centric AI勉強会 資料
https://dcai-jp.connpass.com/event/334367/

Masahiro Yasumoto

November 20, 2024
Tweet

Transcript

  1. • 安本 雅啓 • 所属 ◦ チューリング株式会社(2024/05〜) ◦ E2E⾃動運転チーム SWE

    • 経歴 ◦ メーカー研究所、AIスタートアップ (Araya)でのML開発、SaaSのbackend 開発(atama plus, Treasure Data)を経験 ⾃⼰紹介
  2. • End to Endモデルの学習には、「良い」データが必要。 E2Eモデルの学習には良いデータが必要 • 最近のモデル(特にTransformerベース)はData hungry。 • マルチモーダル特有の課題(センサ間の位置関係の精度)

    • センサーデータ特有の課題(ノイズ、キャリブレーション) • Imitation Learningの課題(エキスパートデータの質) • 様々な交通条件のデータが必要(場所、天候、交通エージェン トの有無)。エッジケースのデータが重要。 量 質 多様 性
  3. • ストレージのコスト ◦ ⽣データは仕⽅ないが、加⼯済データを持つニーズがある。 ▪ 動画 → 画像→ 歪み補正済みの画像 ▪

    CANのエンコードされたデータ → デコード済みデータ • アノテーションのコスト ◦ 3次元物体認識のサブタスクの学習には、教師ラベルが必要だが、⼈ ⼿でのアノテーションはコストが⾼く、全てのシーンに対して付与す ることは困難。 ⼤容量データを扱う上で直⾯する課題
  4. • 事前に加⼯するかどうかの判断基準として、PJ初期は加⼯せず、 PJが進むにつれ、加⼯済データを増やしていくのが良さそう。 PJが進むにつれて加⼯済データを増やす 元 データ 加工済 データA 加工済 データB

    加工済 データC 加工済 データA1 加工済 データA2 ? ? 元 データ 加工済 データA 加工済 データB 加工済 データA1 加工済 データA2 加工済 データB1 PJ初期 ⼀定期間後 😀 🤔
  5. • 基本的にはオンデマンドで加⼯し、⼀度加⼯したらそれをキャッ シュしておく、というのも1つの戦略。 ◦ ただし、キャッシュヒット率が低いと有⽤性が低下する点に注意。 オンデマンド処理+キャッシュという戦略 元 データ 加工済 データA

    画像1 画像2 Application (MLモデル) 画像1A 画像1A 画像2A 画像2A キャッシュ ヒットした場合 キャッシュヒットしない場合は 元データをオンデマンドで加工 加工したデータはキャッシュに保存
  6. データ レイク層 メタデータストア (DWH) CAN GNSS 動画 down- sampling down-

    sampling Object Detection ステア角 緯度・経度 フレームに映る 物体の情報 動画内に映る 平均物体数 右折有無 左折有無 急ブレーキ 有無 エリア内か(例: お台場) データマート(View) 加速度 ブレーキ