$30 off During Our Annual Pro Sale. View Details »

SSII2023 [OS2] WovenCityに向けたVision AIプラットフォームの開発

SSII2023 [OS2] WovenCityに向けたVision AIプラットフォームの開発

小堀 訓成(Woven by Toyota Inc.)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. View Slide

  2. View Slide

  3. 3
    ① Why are we building Woven City?
    なぜWoven Cityを作るのか? Woven Cityの紹介

    View Slide

  4. “Woven” とは
    トヨタグループ創業者
    豊田佐吉
    トヨタのコアフィロソフィー 「誰かのために」
    “Woven” 「織り込まれた」
    トヨタグループの創業者である
    豊田佐吉は
    「機織りをする母を
    少しでも楽にさせたい」
    という思いから
    1890年代に織機を発明

    View Slide

  5. Susono,
    Shizuoka
    Tohoku
    region
    Starting point
    Great Tohoku Earthquake and production shift
    起点は、2011年 東日本大震災と生産の移転

    View Slide

  6. CES 2018

    View Slide

  7. 3つの

    モビリティ

    Three kinds of Mobility

    View Slide

  8. 自動車 のテストコース モビリティのテストコース
    Woven City
    士別
    下山
    Woven City

    View Slide

  9. 9
    PURPOSE / “Why we exist”
    VISION / “Where we want to be”
    MISSION / “What we do to get there”
    Well-being for all.
    幸せの量産
    Building the future fabric of life in a City
    as a Test Course for Mobility.
    テストコースの街で、未来の当たり前を発明する。
    9
    Expand mobility. Enhance humanity. Engage society.
    「モビリティ」の拡張
    OVERVIEW

    View Slide

  10. リアルなテストコースの街

    人の生活を組み込んだ 

    実証実験の街

    働く人・住む人・訪れる人 

    誰しもが発明家


    View Slide

  11. 発明をサポートする体制
    ハードウェア ソフトウェア
    開 発 を 加 速
    一緒に創る

    View Slide

  12. !
    !
    !
    !
    !
    !
    リアルなテストコースの街 
 発明をサポートする体制
    幸 せ の 量 産
    ! !
    Woven City = モビリティを拡張し、未来の当たり前を発明するためのしくみ
    NEW IDEA
    NEW IDEA
    NEW IDEA

    View Slide

  13. Woven Test Course 「Phase1」として
    2024年夏に建築工事完了、2025年に一部実証開始予定

    50,000㎡
    360人が居住予定                   その 後も改善・進化し続けていく「未完成の街」
    将来は
    708,000㎡ 175 acres  を予定

    View Slide

  14. サービス紹介

    View Slide

  15. Phase1での実証内容の紹介(一部)※実際の内容は変更になる可能性もあります
    ヒト・モノ・情報のモビリティで心までも動かしていく
    e-Paletteなどの自動運転や
    モビリティサービス
    ロボットなども
    活用した物流サービス
    より「心がつながる」
    遠隔コミュニケーション技術
    手軽に持ち運べる
    水素エネルギー
    with ENEOS
    水素を「つくる」「運ぶ」「使う」一連のサプ
    ライチェーン実証
    with 日清食品
    食を通じたWell-beingの
    実現に向けた実証
    (完全栄養食メニューの提供など)
    with Rinnai
    水素調理器を使用した
    カーボンニュートラルへの
    貢献などに向けた実証

    View Slide

  16. Concept of ‘City as a Test Course for Mobility’
    「テストコースの街」のコンセプト
    Human-Centered
    ヒト中心の街
    Living Laboratory
    実証実験の街
    Ever-Evolving
    未完成の街

    View Slide

  17. 17
    ② Vision × AI Development for Woven City
    Vision AI Platformの紹介

    View Slide

  18. ① ユーザーのフィードバック
    ③ ソフト開発サポート
    ② データ活用
    ④ ハード開発サポート
    人の会話や動きなどから、
    アンケートには現れないような
    本質的/潜在的なヒトの評価や
    フィードバックを得ることが可能
    ヒトのプライバシーを保護しつつ
    ユーザーの行動などのデータを
    開発に活かすことができる
    ヒトの動きまでをデジタル上で
    再現し、ヒトと街とモビリティがどの
    ように安全かつ効率的に
    共存できるかシミュレーション
    トヨタの強みであるヒトのことを第一
    に考えたプロダクト開発のノウハウ
    でモノ作りをサポート
    「ヒト中心」の考えのもと、4つの領域で発明家をサポート
    発明をサポートする体制
    Vision x AI

    View Slide

  19. 防犯カメラをもっと活用してみませんか? 

    映像から得られる情報は多くあり、それを AIで分析することで、防犯用途だけでなく、様々なビジネスニーズに答えることが 

    できます。


    Woven Cityでは、ユーザープライバシーへの配慮を大前提とし、計測される映像データに AIをオンライン実装できる環境を用意 してお
    り、映像とAIの様々なアイデアを試すことができます。人やモノの動線理解、人の行動理解などを AIが行うことで、適切な空間設計や情報
    提供が可能で、分析の自動化や人の省人化が図れます。 


    価値ある映像を記録 

    映像データの中から、分析に有効な
    データや人のノウハウに関係するデー
    タを、効率よく収集できるデータパイプ
    ラインを提供します。 AIを効率よく賢く
    することが可能です。 


    カメラによる人の高精度測位技術、 

    カメラ間トラッキングによる人の 

    動線理解、人の行動認識・異常認識、人
    の視線推定、人の顔認証など、 

    多様なAIを提供します。

    都市のカメラ映像とあなたの AIを

    繋げ、街の環境でアイデア検証が 

    可能です。オンライン検証ができ、クラ
    ウドソリューションのため 

    オンデマンドでの実験が可能です。 

    多様なAIを提供
 AIの開発環境の提供

    映像 ✖ AIで自動化/省人化を図る

    Feature
    01 Feature
    02 Feature
    03
    Vision × AI
    Vision AI P/F

    View Slide

  20. Woven City 開発全体像: デジタルツインのテストコース
    リアル / デジタル2つのテストコースを構築、世界一高速で改善を回し、連携サービスを創り出す
    Test products and services in the real and digital worlds, and iterate and improve.
    改善
    Improvement
    デジタルテスト
    Digital Test リアルテスト
    Real Test
    デジタルテストコース Digital Test Course
    “ Woven Digital Twin “
    リアルテストコース Real Test Course
    “ Woven City “
    ソフトウェア・ファースト開発
    Software First Development
    改善
    Improvement
    人/物/情報のモビリティサービス
    People / things / information mobility services
    データ / 制御連携
    Data / control connection
    リアル × デジタル Hub
    Real × Digital Hub
    “ Woven Connect ”
    リアル “ 連携サービス “
    “ Cross-industry Orchestrated Services “
    Vision AI P/F

    View Slide

  21. カメラによる動線理解の有用性: デジタル↔リアルの一致の必要
    センサポールとカメラの導入(従来の防犯目的兼)
    カメラによる動線理解  → シミュレーションの高精度化
    (商業施設、交差点の道路など)
    ● 動線理解は物流やエネルギーの最適化など様々な用途で活用
    ● カメラによる動線理解 → 従来の防犯カメラを利活用
    ● 実環境での動線理解は、デジタルツインの高精度化に貢献
    Vision AI P/F
    開発技術
    ①REIDによるカメラ間トラッキング
    ②カメラの同期(デジタル⇆リアル)
     ・カメラ間キャリブレーション
     ・カメラ視線制御:ONVIF遠隔操作

    View Slide

  22. 提供する多様な AI、開発ツール群

    Face Indentification (顔認証)
    顔を登録するとその人が誰かが分かります。

    セキュリティゲートやペイメントの認証、その人と関連したい情報を紐
    づけるために使います。

    ReID Tracking (人物照合)
    カメラ間での同一人物照合で、

    カメラを設置している空間の人の動線を作成するのに役立ちます。

    屋内外を通した広い空間での活用分析に応用できます。

    Person Detection (人物検出)
    人物の検出機能で、人の混雑具合、来場者人数カウントなど、

    人の出入りなどの分析から、エリアごとの人数統計を使った

    エネルギーマネジメントなどに活用できます。

    Depth Estimation (位置推定)
    人やモノの奥行き方向の位置推定が可能です。

    人が3次元上でどこにいるのか、車や物体との距離推定が可能になり、
    交通安全など接触防止などに活用可能です。

    Human Pose Estimation (骨格推定)
    人の骨格推定を2次元、3次元で認識できます。
    歩き方の歩行推定から、歩行速度、姿勢などの異常検出
    また骨格情報からジェスチャー認識や視線推定なども可能です。
    Anomaly Detection (異常検出)
    異常検出機能で、人の動作で正常動作から逸脱するような行動を

    検出します。物理セキュリティなどで活用できます。

    また動きの成熟度なども分析でき、工場などの工程で、作業の成熟度を

    計測するなどが可能です。

    Activity Recognition (行動認識)
    様々な行動を事前に定義することで、その行動が発生した場合にリアルタイム
    に検知し、通知も可能な行動認識機能です。

    例えば、会話の数、食事の噛む回数などは健康の指標に応用できます。

    また物をとる、返すなどの基本動作の認識は、スマートペイメントなどに活用可
    能です。

    以下の学会に採択
     CVPR2023: 1件
     AAAI2023: 1件
    Vision AI P/F

    View Slide

  23. Vision AI P/F
    Istio: load balancing gRPC inference
    requests to model serving
    Calico: Container Network Plugin for
    Kubernetes
    AI映像処理にスケーラブルな基盤ソフトウェアP/F
    Redis
    Kafka
    Model serving

    View Slide

  24. Kafkaを使用したマイクロサービスアーキテクチャ
    Num of cameras
    Image streams
    Face
    identification
    Person
    Detection
    ReID
    tracking
    ・・・
    Number of AI models
    Num of cameras
    Image streams
    Face
    identification
    Person
    Detection
    ReID
    tracking
    ・・・
    Activity
    recog
    Depth
    estimation
    Human
    pose
    estimation
    Monolithic Architecture
    Microservices Architecture
    目標: 数100台のカメラ映像を10FPSで処理できる → カメラ台数やAIのモデルの数は可変
    カメラ台数やAIのモデルの数の変更に対応困難。。
    分散化マイクロサービスアーキテクチャはスケーラブル!!
    Vision AI P/F

    View Slide

  25. オンラインREIDトラッキングによる動線理解の概要

    技術特徴 / 強み: 


    ① カメラ間のトラッキングを完全自動化、オンラインで実施可能


    ② GraphDBを利用し、人の導線と行動理解に特化した効率の良いデータ表現、検索の高速化を実現

      

    ③ Privacy by design による設計


    ④ 世界最先端のAIを実装


    ⑤ 人の3次元高精度測位 →デジタルツイン上に人を投影したり、 シミュレーションの高精度化が可能  



    A
    B
    C
    D
    E
    Vision AI P/F
    本日ご紹介

    View Slide

  26. Privacy by Design による設計
    ❏ PII (personally identifiable information)データと切り分けた設計、基本設計では個人同定はしない
    ❏ 使用するエリアは限定的、かつ、明示する。分析したい商業施設、交差点の横断道路など、公共性の場所に限定
    ❏ 顔認証は使用したい人にのみ、事前に同意をもらう。オプショナルの設計で、データのオプトイン・アウトが可能
    ❏ 対象者は、実証実験の街のコンセプトを理解している人のみ
    Tracking Tracking
    RE-ID
    A PERSON
    (under anonymization)
    Statistic analysis service only
    Woven Cityでは、「ヒト中心の街」というコンセプトのもと、
    ”プライバシーファースト”のアプローチで実証を行います

    View Slide

  27. グラフデータベースとは?
    Camera
    nearby
    nearby
    nearby
    nearby
    Graph DB visualization on browser window
    Tracking
    instance
    Image (s3
    path)
    - Graph DB はデータをノード、データの関係性をエッジで表現
    - 関連情報は直接エッジで表現できるため、リンク構造を活用してデータを効率よく検索できる
    - カメラの位置関係をGiven, カメラ映像内のトラッキング結果を1つのノードとして表現
    Graph/REID

    View Slide

  28. アルゴリズムの処理フロー
    ❏ 近傍のカメラにのみフォーカスして、
    カメラ映像での人のIN・OUTをチェック
    ❏ ReID 特徴量を抽出し、近傍のカメラにいる人にの
    み類似度計算を行う
    ❏ ローカルマッチングした結果をグラフ
    DBに反映す

    cam 1 cam 2
    MTMC (Multi-Target Multi-Camera tracking)
    Update
    graph DB
    online!
    Graph database
    Pass & match
    ReID information
    Match!
    オンラインREIDトラッキング と グラフデータベースの活用方法

    Graph/REID

    View Slide

  29. Graph/REID
    グラフデータベースの活用の特徴

    提案手法は、ターゲットユーザの服装が変わっても
    (注)
    、1枚の画像から全体の動線を得ることが可能
    注)カメラ内で服装を変更する場合
    1
    2 4 5 7
    3 6
    ReID Feat of User B
    Input:
    High Similarity
    User B
    Graph DB
    動線の検索に特化した設計をしている点がポイント!!

    View Slide

  30. Graph/REID
    Task: 対象者の最新位置情報を検索する

    Task:
    ● ターゲットの最新位置を取得 (= the latest STrack) .
    Input:
    ● ターゲットのReID特徴量
    Output:
    ● ユーザーの最新のSTrack
    (= 対象の軌跡の最新のSTrack node)
    1
    2 4 5 7
    3 6
    ReID Feat of User B
    Input:
    Highest Similarity
    1’’ 2’’
    1’
    3’
    2’ 1’’’
    User B
    User A User C User D
    Output
    Graph DB
    STrackとは、
    カメラ内トラッキング結果で、一連の人物画像群を
    内包するノード。対象人物がカメラ画角から外れた
    り、トラッキングが外れたりすると、新しいノードが発
    生する。

    View Slide

  31. Graph/REID
    Methods for Latest STrack Retrieval

    NAIVE (w/o GraphDB; Brute-force search)
    1. DBの全てのノードに対して類似度計算
    2. 閾値以上のノードを選別 “cosine similarity > th”
    3. 最新の時間のSTrackを結果として返す
    GRAPH_1A/B
    1. root ノードを探す
    a. A = Offline method (評価前に、ルードノードを事前に
    マークしておく)
    b. B = Online method (Pattern discovery)
    2. ルートノードに対して、類似度計算の実施
    3. 類似度が一番高いノードを取得
    4. グラフ構造をたどり、最新の
    Leafノードを
    結果として返す
    1 4
    feat
    Input:
    1’ 2’
    User B
    User A
    Output
    Graph DB
    0.5 < th 0.4 < th 0.8 < th 0.9 > th 0.9 > th 0.9 > th
    3
    2
    1
    4
    feat
    Input:
    1’ 2’
    User B
    User A
    Output
    Graph DB
    0.5 < th 0.8 < th
    3
    2
    Highest
    Similarity
    *frame_id
    1*
    グラフ構造を使うことで、類似度計算する
    ノード数を削減できる

    View Slide

  32. Graph/REID
    Result: 処理時間

    ● データの増加に伴い、処理時間が線形で増加する。特に、
    Naive methods では、増加率が一番高い。
    ● rootノードから検索する方法(GRAPH_1A/B) は、他どの手法よりも検索時間が短縮化できている
    ○ 注意:rootノードの数は、leafノードの数よりも少ない
    ● rootノードのオンライン・オフライン探索の違い(
    A/B)は小さい
    x12

    View Slide

  33. Result - Accuracy
    ● Ground Truth = 最新のSTrackノード
    Method Accuracy
    NAIVE 0.42
    GRAPH_1A 0.93
    GRAPH_1B 0.93
    GRAPH_2A 0.91
    GRAPH_2B 0.91
    GRAPH_3A 0.07
    GRAPH_3B 0.07
    Graph/REID

    View Slide

  34. Woven Cityを活用した実証計画の事例 & データ基盤の紹介
    Vision AI P/F
    Human in the loopの仕組みにより、警備サービスの高度平準化(警備員の省人化)
    WA

    Vision AI

    警備会社

    警備システム

    警備会社

    駆付警備員

    カメラ映像を常
    時監視
    異常検知

    駆付警備員に 

    対応指示

    対応・報告
    報告受領
    Vision AIにフィー
    ドバック
    警備会社

    監視警備員

    対応すべき 

    事象

    駆付要否

    判断

    実証
    最終形
    Vision AIが
    判断
    (無人化)
    ✅実務ノウハウの蓄積
    蓄積されたノウハウ:事象発見 ⇨判断 ⇨駆け付け対応
    学習用データとして蓄積 → 未検出の低減化
    ✅人とAIの協調的の作業によるAIでの自動遷移化
    AIと人による警備監視を同時に行う
    AIの異常検知を人がチェック →誤検出の低減化
    Human in the loopによるデータパイプラインを構築することにより、価
    値あるデータを中心的に集めることが可能。
    また用途は警備サービスに関わらず、汎用的なデータ基盤。
    誤報

    Human in the loop 

    進化しつづけるAI 

    Human in the loop レポート
    出動: あり なし
    事象: 倒れ込み
    対応内容 現地に駆けつけ、意
    識確認、仮睡の可能
    性が高い
    駆付要否

    判断

    異常検知

    駆付警備員に 

    対応指示

    対応・報告
    カメラ映像を常
    時監視
    実証初期
    Vision AI
    警備会社
    共同構築

    View Slide

  35. まとめ
    ❏ Woven City「テストコースの街」
    Purpose : Well-being for All, 幸せの量産
    Vision : 「モビリティの拡張」
    →トヨタのモビリティカンパニーへの変革に貢献
    Mission : テストコースの街で、未来の当たり前を発明する
    ❏ Vision AI Platformの紹介
    ❏ デジタルツインの重要性 と カメラ同期(バーチャル⇆リアル)
    ❏ 開発者支援ツールの提供
    ❏ 多様なAI
    ❏ データ基盤(Human in the loop)
    ❏ AIデプロイ環境基盤(分散化アーキテクチャ)
    ❏ グラフデータベースを活用したオンラインでの人の動線理解
    ❏ AIを活用した警備業務の省人化の取り組み

    View Slide

  36. View Slide