Pedestrian-Centric大規模交通安全映像解析向けWoven Traffic Sa...

Pedestrian-Centric大規模交通安全映像解析向けWoven Traffic Safety (WTS) データセットの紹介


Quan Kong

April 04, 2024

  1. Pedestrian-Centric大規模交通安全映像解析向け Woven Traffic Safety (WTS) データセットの紹介 Quan Kong (孔 全)

    Woven by Toyota, Inc. (quan.kong@woven.toyota) 2024.03.28 第7回Data Centric AI 勉強会
  2. 目次 自己紹介 & Woven City 1. モチベーションと背景 2. WTS +

    AI City Challenge 2024 @ CVPR24 3. WTS データセットの概要と特徴 4. データセットの作成 5. タスク & ベースライン 6. 評価結果
  3. 自己紹介 ❖ 名前: 孔 全 (コウ ゼン) (Kong Quan) ❖

    所属 & 経歴: 大阪大学 情報科学 博士課程 (ML+wearable computing / sensing) (株)日立製作所 中央研究所 (CV + ML) Woven by Toyota, Inc. (CV + ML), Research Scientist, ML Modeling Sub-Lead ❖ 関心のトピック: Video understanding, Representation learning Multi-Modal learning, Generative learning, Dataset creation Paper & Project
  4. Susono, Shizuoka Tohoku region Starting point Great Tohoku Earthquake and

    production shift 起点は、2011年 東日本大震災と生産の移転
  5. 9 PURPOSE / “Why we exist” VISION / “Where we

    want to be” MISSION / “What we do to get there” Well-being for all. 幸せの量産 Building the future fabric of life in a City as a Test Course for Mobility. テストコースの街で、未来の当たり前を発明する。 9 Expand mobility. Enhance humanity. Engage society. 「モビリティ」の拡張 OVERVIEW
  6. Phase1での実証内容の紹介(一部)※実際の内容は変更になる可能性もあります ヒト・モノ・情報のモビリティで心までも動かしていく e-Paletteなどの自動運転や モビリティサービス ロボットなども 活用した物流サービス より「心がつながる」 遠隔コミュニケーション技術 手軽に持ち運べる 水素エネルギー

    with ENEOS 水素を「つくる」「運ぶ」「使う」一連のサプ ライチェーン実証 with 日清食品 食を通じたWell-beingの 実現に向けた実証 (完全栄養食メニューの提供など) with Rinnai 水素調理器を使用した カーボンニュートラルへの 貢献などに向けた実証
  7. 1. モチベーション & 背景 - 歩行者事故の現状 大区分 中区分 日本全体、年間 件数

    構成率 [%] 横断中 横断歩道 12402 33.7 横断歩道付近 935 2.5 横断歩道橋付 近 47 0.1 横断中その他 7379 20.1 横断中以 外 路上遊戯中 173 0.5 路上作業中 619 1.7 路上停止中 789 2.1 路上横臥 214 0.6 対面通行中 2702 7.3 背面通行中 3779 10.3 その他 7762 21.1 小区分 日本全体、年間 件数 構成率 信号無視 522 1.4 通行区分違反 892 2.4 横断歩道以外 1496 4.1 斜め横断 402 1.1 駐車車両直前直後 265 0.7 走行車両直前直後 1098 3 横断禁止場所横断 139 0.4 幼児一人歩き 113 0.3 踏切不注意 32 0.1 酩酊徘徊 246 0.7 路上遊戯 108 0.3 路上作業 255 0.7 飛び出し 1361 3.7 その他違反 969 2.6 違反なし 28698 78.4 日本における歩行者事故は年間約 35,000件、歩行者違反は約 7,000件 事故の定義 ・歩行者違反による事故 ・歩行者違反による巻き込み -
  8. 2. WTS + AI City Challenge@ CVPR24 https://www.aicitychallenge.org/ WTSデータセットはAI City

    Challenge Track2のコンペ用データセットで利用される Challenge Track 2: Traffic Safety Description and Analysis This task revolves around the long fine-grained video captioning of traffic safety scenarios, especially those involving pedestrian accidents. Leveraging multiple cameras and viewpoints, participants will be challenged to describe the continuous moment before the incidents, as well as the normal scene, captioning all pertinent details regarding the surrounding context, attention, location, and behavior of the pedestrian and vehicle. This task provides a new dataset WTS, featuring staged accidents with stunt drivers and pedestrians in a controlled environment, and offers a unique opportunity for detailed analysis in traffic safety scenarios. The analysis result could be valuable for wide usage across industry and society, e.g., it could lead to the streamlining of the inspection process in insurance cases and contribute to the prevention of pedestrian accidents. More features of the dataset can be referred to the dataset homepage (https://woven-visionai.github.io/wts-dataset-homepage/). The top teams of this task are planned to be invited and offered the opportunity to deploy and test their solutions in Woven City after 2025 Summer. https://www.aicitychallenge.org/2024-challenge-tracks/ Organization: NVIDIA, Woven by Toyota, Johns Hopkins University, IIT Kanpur, Australian National University, Santa Clara University, University at Albany-SUNY
  9. 2. WTS + AI City Challenge@ CVPR24 ❏ 200+チームからリクエスト ❏

    400以上のアクセス Beijing University of Posts and Communications, New York University, The Hong Kong University of Science and Technology, IIT Kanpur, National Yang Ming Chiao Tung University, Southeast university, KIT TECO, DiDi Technology, GMOz, Korea University, NEC, University of British Columbia, etc… ❏ リクエストをした会社や大学 2024.02.07まで、159チームはコンペを参加申請
  10. 3. WTSデータセットの概要と特徴 : 特徴 ① Large Scale & Diversity ③

    Long Detail Traffic Description ② Behaviour Phases Segmentation ④ Multi-views / 3D Gaze and environment
  11. 3. WTSデータセットの概要と特徴 : Large Scale & Diversity Largest dataset in

    traffic domain with instance level information of video description. 事故のISOパターンの例
  12. 3. WTSデータセットの概要と特徴 : Long Detailed Description [Pedestrian Caption][Action phase] The

    pedestrian, a male in his 20s, stood perpendicular to the vehicle and to the left. He was positioned diagonally to the right, in front of the vehicle, at a close distance. Slowly looking around, the pedestrian's line of sight was fixed on the vehicle. He appeared to notice the vehicle and was aware of its presence. In front of him, he planned to continue going straight ahead, despite traveling in a car lane. His speed was slow, matching his cautious actions. As for the environment, the weather was cloudy, and the brightness of the surroundings was dim. The road surface conditions were dry on the level asphalt road, which was classified as a residential road with two-way traffic. Notably, there were no sidewalks or roadside strips on both sides of the road, but there were street lights illuminating the area. [location][attention][behaviour][context attributes]
  13. 3. WTSデータセットの概要と特徴 : Multi-views & 3D Gaze 3D scanned environment

    3D Gaze data (left:measured, right:GT) Projected 3D location Multi-views under infra-vehicle cooperated env. • 3D space 3D gaze are synced for further free-angle analysis in 3D digital environment • Multiple views from infra to vehicle cameras
  14. 3. WTSデータセットの概要と特徴 : サンプル映像 Vehicle view Pedestrian view Surveillance view

    ISO34502-37: 信号のある交差点を左折する際、横断歩道を横断開始した歩行者との衝突事故
  15. 4. データセットの作成 - アノテーションのフロー:phaseセグメンテーション [環境、位置、行動、注意先 ]などに関して、180+ チェック項目の構造化を実施 pre-recognition recognition judgement

    action avoidance 周辺の環境意識(横断歩道、信号機、車両など)を 開始する前のタイミング。 環境意識(横断歩道、信号機、車両等)の開始から 判定までのタイミング。 原則として、環境認識が完了してから行動を開始 するまでのこと。 身体の任意の部分(目と耳を除く)の動きの開始から、 結果(衝突など)が発生するまでの時間。 回避可能になってから、回避が発生するまで、また は回避に失敗するまでの時間。
  16. 4. データセットの作成 - アノテーションのフロー:要項チェック ・対象: 歩行者、車両、環境 ・スーパーカテゴリ: 位置、行動、注意先 ・チェック項目: 向き、距離、移動方向など

    チェック内容のサンプル '被害者の体の向き': '加害車両と逆の方向 ', '被害者の位置': '加害車両の正面', '加害車両との相対距離 ': '0m', '被害者視線': '加害車両', '被害者目視状況': '注視している', '被害者進行方向': '前方', '加害車両の認知': '加害車両に気づいたが ', '被害者行動(一般的) ': '直進している', '被害者行動(特殊)': '飛び出している', ・・・ [環境、位置、行動、注意先 ]などに関して、180+ チェック項目の構造化を実施
  17. 4. データセットの作成 - アノテーションのフロー:説明文を生成 チェック内容のサンプル '被害者の体の向き': '加害車両と逆の方向 ', '被害者の位置': '加害車両の正面',

    '加害車両との相対距離 ': '0m', '被害者視線': '加害車両', '被害者目視状況': '注視している', '被害者進行方向': '前方', '加害車両の認知': '加害車両に気づいたが ', '被害者行動(一般的) ': '直進している', '被害者行動(特殊)': '飛び出している', ・・・ 歩行者:歩行者は車両に気づいていたにもかかわらず、早いス ピードで直進して飛び出してきた。 車両: 歩行者が早いスピードで飛び出してくる一方、クルマは時 速5キロの低速で左折を開始した。 Caption Generation LLM [環境、位置、行動、注意先 ]などに関して、180+ チェック項目の構造化を実施
  18. 4. データセットの作成 - アノテーションのフロー:3D Gaze情報の作成 ・一人称視点の映像から5 fpsでサンプリングされ、SfMを用いて、事前構築された位置推定用の3Dマップに基づき、 ワールド座標で一人称視点の映像フレームをローカライズされ、ego-viewでの3D camera poseを推定

    ・3DマップはLiDAR スキャン機能を備えた Matterport カメラを利用して作成。 ・事前に用意した固定カメラのpose、一人称視点のcamera pose、およびTobii Glassからの2D視線先を用いて、一人 称視点の2D視線方向を各固定カメラの第三人称視点のビューへ変換し、3D Gazeを取得 Tobii pro Glass 3
  19. 5. タスク & ベースライン Video captioning model The pedestrian, a

    male in his 20s, stood perpendicular to the vehicle and to the left. He was positioned diagonally to the right, in front of the vehicle, at a close distance. Slowly looking around, the pedestrian's line of sight was fixed on the vehicle. He appeared to notice the vehicle and was aware of its presence. In front of him, he planned to continue going straight ahead, despite traveling in a car lane. His speed was slow, matching his cautious actions. As for the environment, the weather was cloudy, and the brightness of the surroundings was dim. The road surface conditions were dry on the level asphalt road, which was classified as a residential road with two-way traffic. Notably, there were no sidewalks or roadside strips on both sides of the road, but there were street lights illuminating the area. タスク:traffic safetyの映像を入力し、説明文を生成する Video Captioning タスクをまず検証 評価: 生成された文書を教師情報と比べて、文書内容の一致性をスコアリングする ・専門性がある文書はどこまでモデルから理解できることに関心 ・長い&詳細な説明文をモデルから生成する性能に関心
  20. 5. タスク & ベースライン - ベースライン1 適用のため: - 3 種類promptを用意

    - Audio Q-Formerを利用しない - 8 frames uniform samplingを実施 - LLMの部分はLLaMA-2-7B - Video Q-Former = BLIP2 Q-Fromerの時系列版 ベースライン1: Video-LLaMA Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
  21. 5. タスク & ベースライン - ベースライン2 ベースライン2: Video-ChatGPT 適用のため: -

    3種類promptを用意 - 24 frames uniform samplingを実施 - LLM = Vicuna-1.1-7B - Frame feature = CLIP ViT encoder - Q-Former cross attention 構造は利用なし、 代わりに映像の特徴量を frameの特徴量を poolingする形 Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
  22. 5. タスク & ベースライン - ベースライン3 ベースライン3 : Video-LLaMAのVideo Branchをカスタマイズし、Fine-tuneを実施

    User Query + System prompt Describe the traffic scene in the following video from the pedestrian perspective … Visual encoder Spatial extractor Linear Position embedding Video features NxDxB … Learnable query feed-forward cross-attention self-attention Video Q-Former … … User Query + System prompt (suffix) LLM(Vicuan-7B) Output caption: “A woman is seeing walking direction along the sidewalk and start crossing the crossroad while a silver car is going straight through the traffic lights … … … Spatial token ・LLM = Vicuan-1.1-7B, Video encoder = ViT-G/14 with position encoding, Q-Former = Video Q-Former in Video-LLaMA *Fine-tune = fine-tune the Video Q-former part
  23. 6. 評価設定 ・データセット: - WTSのtrain (~2000 scenarios)と val (~800 scenarios)を利用

    - WTSのmulti-viewのデータから一つviewのみをtrain / valに利用 - 1映像に複数のフェーズセグメンテーションがあるため、評価はフェーズ単位で行う ・評価基準: ①BLEU-4, METEOR, ROUGE-L, CIDERなどtext similarityの一致性を評価する方法 ②LLMを用いた言語の語彙的な一致性を評価する方法 WTSで新規収集したMulti-viewのデータとBDDのデータ、両方それぞれの評価結果の平均スコアを計算