SSII2023 [OS2] WovenCityに向けたVision AIプラットフォームの開発

3 ① Why are we building Woven City? なぜWoven Cityを作るのか？
Woven Cityの紹介

“Woven” とはトヨタグループ創業者豊田佐吉トヨタのコアフィロソフィー　「誰かのために」 “Woven” 「織り込まれた」トヨタグループの創業者である豊田佐吉は「機織りをする母を
少しでも楽にさせたい」という思いから 1890年代に織機を発明

Susono, Shizuoka Tohoku region Starting point Great Tohoku Earthquake and
production shift 起点は、2011年東日本大震災と生産の移転

CES 2018

3つの  モビリティ  Three kinds of Mobility

自動車のテストコースモビリティのテストコース Woven City 士別下山 Woven City

9 PURPOSE / “Why we exist” VISION / “Where we
want to be” MISSION / “What we do to get there” Well-being for all. 幸せの量産 Building the future fabric of life in a City as a Test Course for Mobility. テストコースの街で、未来の当たり前を発明する。 9 Expand mobility. Enhance humanity. Engage society. 「モビリティ」の拡張 OVERVIEW

リアルなテストコースの街  人の生活を組み込んだ   実証実験の街  働く人・住む人・訪れる人   誰しもが発明家 

発明をサポートする体制ハードウェアソフトウェア開発を加速一緒に創る

! ! ! ! ! ! リアルなテストコースの街   発明をサポートする体制幸
せの量産 ! ! Woven City = モビリティを拡張し、未来の当たり前を発明するためのしくみ NEW IDEA NEW IDEA NEW IDEA

Woven Test Course 「Phase1」として 2024年夏に建築工事完了、2025年に一部実証開始予定 <Phase 1> 50,000㎡ 360人が居住予定　　　　　　　　　　　　　　　　　　　その後も改善・進化し続けていく「未完成の街」
将来は 708,000㎡　175 acres　　を予定

サービス紹介

Phase1での実証内容の紹介（一部）※実際の内容は変更になる可能性もありますヒト・モノ・情報のモビリティで心までも動かしていく e-Paletteなどの自動運転やモビリティサービスロボットなども活用した物流サービスより「心がつながる」遠隔コミュニケーション技術手軽に持ち運べる水素エネルギー
with ENEOS 水素を「つくる」「運ぶ」「使う」一連のサプライチェーン実証 with 日清食品食を通じたWell-beingの実現に向けた実証（完全栄養食メニューの提供など） with Rinnai 水素調理器を使用したカーボンニュートラルへの貢献などに向けた実証

Concept of ‘City as a Test Course for Mobility’ 「テストコースの街」のコンセプト
Human-Centered ヒト中心の街 Living Laboratory 実証実験の街 Ever-Evolving 未完成の街

17 ② Vision × AI Development for Woven City Vision
AI Platformの紹介

① ユーザーのフィードバック ③ ソフト開発サポート ② データ活用 ④ ハード開発サポート人の会話や動きなどから、アンケートには現れないような
本質的/潜在的なヒトの評価やフィードバックを得ることが可能ヒトのプライバシーを保護しつつユーザーの行動などのデータを開発に活かすことができるヒトの動きまでをデジタル上で再現し、ヒトと街とモビリティがどのように安全かつ効率的に共存できるかシミュレーショントヨタの強みであるヒトのことを第一に考えたプロダクト開発のノウハウでモノ作りをサポート「ヒト中心」の考えのもと、4つの領域で発明家をサポート発明をサポートする体制 Vision x AI

防犯カメラをもっと活用してみませんか？   映像から得られる情報は多くあり、それを AIで分析することで、防犯用途だけでなく、様々なビジネスニーズに答えることが   できます。    Woven Cityでは、ユーザープライバシーへの配慮を大前提とし、計測される映像データに AIをオンライン実装できる環境を用意　してお
り、映像とAIの様々なアイデアを試すことができます。人やモノの動線理解、人の行動理解などを AIが行うことで、適切な空間設計や情報提供が可能で、分析の自動化や人の省人化が図れます。     価値ある映像を記録   映像データの中から、分析に有効なデータや人のノウハウに関係するデータを、効率よく収集できるデータパイプラインを提供します。 AIを効率よく賢くすることが可能です。     カメラによる人の高精度測位技術、   カメラ間トラッキングによる人の   動線理解、人の行動認識・異常認識、人の視線推定、人の顔認証など、   多様なAIを提供します。  都市のカメラ映像とあなたの AIを  繋げ、街の環境でアイデア検証が   可能です。オンライン検証ができ、クラウドソリューションのため   オンデマンドでの実験が可能です。   多様なAIを提供  AIの開発環境の提供  映像 ✖ AIで自動化/省人化を図る  Feature 01 Feature 02 Feature 03 Vision × AI Vision AI P/F

Woven City 開発全体像：デジタルツインのテストコースリアル / デジタル２つのテストコースを構築、世界一高速で改善を回し、連携サービスを創り出す Test products and
services in the real and digital worlds, and iterate and improve. 改善 Improvement デジタルテスト Digital Test リアルテスト Real Test デジタルテストコース Digital Test Course “ Woven Digital Twin “ リアルテストコース Real Test Course “ Woven City “ ソフトウェア・ファースト開発 Software First Development 改善 Improvement 人/物/情報のモビリティサービス People / things / information mobility services データ / 制御連携 Data / control connection リアル × デジタル Hub Real × Digital Hub “ Woven Connect ” リアル “ 連携サービス “ “ Cross-industry Orchestrated Services “ Vision AI P/F

カメラによる動線理解の有用性：デジタル↔リアルの一致の必要センサポールとカメラの導入（従来の防犯目的兼）カメラによる動線理解　 → シミュレーションの高精度化（商業施設、交差点の道路など） • 動線理解は物流やエネルギーの最適化など様々な用途で活用 •
カメラによる動線理解 → 従来の防犯カメラを利活用 • 実環境での動線理解は、デジタルツインの高精度化に貢献 Vision AI P/F 開発技術 ①REIDによるカメラ間トラッキング ②カメラの同期（デジタル⇆リアル）　・カメラ間キャリブレーション　・カメラ視線制御：ONVIF遠隔操作

提供する多様な AI、開発ツール群  Face Indentiﬁcation (顔認証) 顔を登録するとその人が誰かが分かります。   セキュリティゲートやペイメントの認証、その人と関連したい情報を紐づけるために使います。  
ReID Tracking （人物照合）カメラ間での同一人物照合で、   カメラを設置している空間の人の動線を作成するのに役立ちます。   屋内外を通した広い空間での活用分析に応用できます。   Person Detection (人物検出) 人物の検出機能で、人の混雑具合、来場者人数カウントなど、   人の出入りなどの分析から、エリアごとの人数統計を使った   エネルギーマネジメントなどに活用できます。   Depth Estimation (位置推定) 人やモノの奥行き方向の位置推定が可能です。   人が３次元上でどこにいるのか、車や物体との距離推定が可能になり、交通安全など接触防止などに活用可能です。   Human Pose Estimation (骨格推定) 人の骨格推定を２次元、３次元で認識できます。歩き方の歩行推定から、歩行速度、姿勢などの異常検出また骨格情報からジェスチャー認識や視線推定なども可能です。 Anomaly Detection (異常検出) 異常検出機能で、人の動作で正常動作から逸脱するような行動を   検出します。物理セキュリティなどで活用できます。   また動きの成熟度なども分析でき、工場などの工程で、作業の成熟度を   計測するなどが可能です。   Activity Recognition (行動認識) 様々な行動を事前に定義することで、その行動が発生した場合にリアルタイムに検知し、通知も可能な行動認識機能です。   例えば、会話の数、食事の噛む回数などは健康の指標に応用できます。   また物をとる、返すなどの基本動作の認識は、スマートペイメントなどに活用可能です。  以下の学会に採択　CVPR2023: 1件　AAAI2023: 1件 Vision AI P/F

Vision AI P/F Istio: load balancing gRPC inference requests to
model serving Calico: Container Network Plugin for Kubernetes AI映像処理にスケーラブルな基盤ソフトウェアP/F Redis Kafka Model serving

Kafkaを使用したマイクロサービスアーキテクチャ Num of cameras Image streams Face identification Person Detection
ReID tracking ・・・ Number of AI models Num of cameras Image streams Face identification Person Detection ReID tracking ・・・ Activity recog Depth estimation Human pose estimation Monolithic Architecture Microservices Architecture 目標：数100台のカメラ映像を10FPSで処理できる → カメラ台数やAIのモデルの数は可変カメラ台数やAIのモデルの数の変更に対応困難。。分散化マイクロサービスアーキテクチャはスケーラブル！！ Vision AI P/F

オンラインREIDトラッキングによる動線理解の概要  技術特徴 / 強み：     ① カメラ間のトラッキングを完全自動化、オンラインで実施可能    
② GraphDBを利用し、人の導線と行動理解に特化した効率の良いデータ表現、検索の高速化を実現   　   ③ Privacy by design による設計    ④ 世界最先端のAIを実装    ⑤ 人の３次元高精度測位　→デジタルツイン上に人を投影したり、シミュレーションの高精度化が可能　      A B C D E Vision AI P/F 本日ご紹介

Privacy by Design による設計 ❏ PII (personally identifiable information)データと切り分けた設計、基本設計では個人同定はしない ❏
使用するエリアは限定的、かつ、明示する。分析したい商業施設、交差点の横断道路など、公共性の場所に限定 ❏ 顔認証は使用したい人にのみ、事前に同意をもらう。オプショナルの設計で、データのオプトイン・アウトが可能 ❏ 対象者は、実証実験の街のコンセプトを理解している人のみ Tracking Tracking RE-ID A PERSON (under anonymization) Statistic analysis service only Woven Cityでは、「ヒト中心の街」というコンセプトのもと、 ”プライバシーファースト”のアプローチで実証を行います

グラフデータベースとは？ Camera nearby nearby nearby nearby Graph DB visualization on
browser window Tracking instance Image (s3 path) - Graph DB はデータをノード、データの関係性をエッジで表現 - 関連情報は直接エッジで表現できるため、リンク構造を活用してデータを効率よく検索できる - カメラの位置関係をGiven,　カメラ映像内のトラッキング結果を1つのノードとして表現 Graph/REID

アルゴリズムの処理フロー ❏ 近傍のカメラにのみフォーカスして、カメラ映像での人のIN・OUTをチェック ❏ ReID 特徴量を抽出し、近傍のカメラにいる人にのみ類似度計算を行う ❏ ローカルマッチングした結果をグラフ
DBに反映する cam 1 cam 2 MTMC (Multi-Target Multi-Camera tracking) Update graph DB online! Graph database Pass & match ReID information Match! オンラインREIDトラッキングとグラフデータベースの活用方法  Graph/REID

Graph/REID グラフデータベースの活用の特徴  提案手法は、ターゲットユーザの服装が変わっても (注) 、１枚の画像から全体の動線を得ることが可能注）カメラ内で服装を変更する場合 1 2 4 5
7 3 6 ReID Feat of User B Input: High Similarity User B Graph DB 動線の検索に特化した設計をしている点がポイント！！

Graph/REID Task: 対象者の最新位置情報を検索する  Task: • ターゲットの最新位置を取得 (= the latest STrack)
. Input: • ターゲットのReID特徴量 Output: • ユーザーの最新のSTrack (= 対象の軌跡の最新のSTrack node） 1 2 4 5 7 3 6 ReID Feat of User B Input: Highest Similarity 1’’ 2’’ 1’ 3’ 2’ 1’’’ User B User A User C User D Output Graph DB STrackとは、カメラ内トラッキング結果で、一連の人物画像群を内包するノード。対象人物がカメラ画角から外れたり、トラッキングが外れたりすると、新しいノードが発生する。

Graph/REID Methods for Latest STrack Retrieval  NAIVE (w/o GraphDB; Brute-force
search) 1. DBの全てのノードに対して類似度計算 2. 閾値以上のノードを選別 “cosine similarity > th” 3. 最新の時間のSTrackを結果として返す GRAPH_1A/B 1. root ノードを探す a. A = Ofﬂine method (評価前に、ルードノードを事前にマークしておく) b. B = Online method (Pattern discovery) 2. ルートノードに対して、類似度計算の実施 3. 類似度が一番高いノードを取得 4. グラフ構造をたどり、最新の Leafノードを結果として返す 1 4 feat Input: 1’ 2’ User B User A Output Graph DB 0.5 < th 0.4 < th 0.8 < th 0.9 > th 0.9 > th 0.9 > th 3 2 1 4 feat Input: 1’ 2’ User B User A Output Graph DB 0.5 < th 0.8 < th 3 2 Highest Similarity *frame_id 1* グラフ構造を使うことで、類似度計算するノード数を削減できる

Graph/REID Result：処理時間  • データの増加に伴い、処理時間が線形で増加する。特に、 Naive methods では、増加率が一番高い。 • rootノードから検索する方法(GRAPH_1A/B)
は、他どの手法よりも検索時間が短縮化できている ◦ 注意：rootノードの数は、leafノードの数よりも少ない • rootノードのオンライン・オフライン探索の違い（ A/B）は小さい x12

Result - Accuracy • Ground Truth = 最新のSTrackノード Method Accuracy
NAIVE 0.42 GRAPH_1A 0.93 GRAPH_1B 0.93 GRAPH_2A 0.91 GRAPH_2B 0.91 GRAPH_3A 0.07 GRAPH_3B 0.07 Graph/REID

Woven Cityを活用した実証計画の事例＆データ基盤の紹介 Vision AI P/F Human in the
loopの仕組みにより、警備サービスの高度平準化（警備員の省人化） WA  Vision AI  警備会社  警備システム  警備会社  駆付警備員  カメラ映像を常時監視異常検知  駆付警備員に   対応指示  対応・報告報告受領 Vision AIにフィードバック警備会社  監視警備員  対応すべき   事象  駆付要否  判断  実証最終形 Vision AIが判断（無人化） ✅実務ノウハウの蓄積蓄積されたノウハウ：事象発見 ⇨判断 ⇨駆け付け対応学習用データとして蓄積 → 未検出の低減化 ✅人とAIの協調的の作業によるAIでの自動遷移化 AIと人による警備監視を同時に行う AIの異常検知を人がチェック →誤検出の低減化 Human in the loopによるデータパイプラインを構築することにより、価値あるデータを中心的に集めることが可能。また用途は警備サービスに関わらず、汎用的なデータ基盤。誤報  Human in the loop   進化しつづけるAI   Human in the loop　レポート出動：　あり　なし事象：　倒れ込み対応内容現地に駆けつけ、意識確認、仮睡の可能性が高い駆付要否  判断  異常検知  駆付警備員に   対応指示  対応・報告カメラ映像を常時監視実証初期 Vision AI 警備会社共同構築

まとめ ❏ Woven City「テストコースの街」 Purpose ：　Well-being for All, 幸せの量産 Vision
：　「モビリティの拡張」 →トヨタのモビリティカンパニーへの変革に貢献 Mission ：　テストコースの街で、未来の当たり前を発明する ❏ Vision AI Platformの紹介 ❏ デジタルツインの重要性とカメラ同期（バーチャル⇆リアル） ❏ 開発者支援ツールの提供 ❏ 多様なAI ❏ データ基盤（Human in the loop） ❏ AIデプロイ環境基盤(分散化アーキテクチャ) ❏ グラフデータベースを活用したオンラインでの人の動線理解 ❏ AIを活用した警備業務の省人化の取り組み

SSII2023 [OS2] WovenCityに向けたVision AIプラットフォームの開発

SSII2023 [OS2] WovenCityに向けたVision AIプラットフォームの開発

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Science

Featured

Transcript

3 ① Why are we building Woven City? なぜWoven Cityを作るのか？

“Woven” とはトヨタグループ創業者豊田佐吉トヨタのコアフィロソフィー　「誰かのために」 “Woven” 「織り込まれた」トヨタグループの創業者である豊田佐吉は「機織りをする母を

Susono, Shizuoka Tohoku region Starting point Great Tohoku Earthquake and

CES 2018

3つの  モビリティ  Three kinds of Mobility

自動車のテストコースモビリティのテストコース Woven City 士別下山 Woven City

9 PURPOSE / “Why we exist” VISION / “Where we

リアルなテストコースの街  人の生活を組み込んだ   実証実験の街  働く人・住む人・訪れる人   誰しもが発明家

発明をサポートする体制ハードウェアソフトウェア開発を加速一緒に創る

! ! ! ! ! ! リアルなテストコースの街   発明をサポートする体制幸

Woven Test Course 「Phase1」として 2024年夏に建築工事完了、2025年に一部実証開始予定 <Phase 1> 50,000㎡ 360人が居住予定　　　　　　　　　　　　　　　　　　　その後も改善・進化し続けていく「未完成の街」

サービス紹介

Concept of ‘City as a Test Course for Mobility’ 「テストコースの街」のコンセプト

17 ② Vision × AI Development for Woven City Vision

① ユーザーのフィードバック ③ ソフト開発サポート ② データ活用 ④ ハード開発サポート人の会話や動きなどから、アンケートには現れないような

Woven City 開発全体像：デジタルツインのテストコースリアル / デジタル２つのテストコースを構築、世界一高速で改善を回し、連携サービスを創り出す Test products and

提供する多様な AI、開発ツール群  Face Indentiﬁcation (顔認証) 顔を登録するとその人が誰かが分かります。   セキュリティゲートやペイメントの認証、その人と関連したい情報を紐づけるために使います。

Vision AI P/F Istio: load balancing gRPC inference requests to

Kafkaを使用したマイクロサービスアーキテクチャ Num of cameras Image streams Face identification Person Detection

オンラインREIDトラッキングによる動線理解の概要  技術特徴 / 強み：     ① カメラ間のトラッキングを完全自動化、オンラインで実施可能

Privacy by Design による設計 ❏ PII (personally identifiable information)データと切り分けた設計、基本設計では個人同定はしない ❏

グラフデータベースとは？ Camera nearby nearby nearby nearby Graph DB visualization on

アルゴリズムの処理フロー ❏ 近傍のカメラにのみフォーカスして、カメラ映像での人のIN・OUTをチェック ❏ ReID 特徴量を抽出し、近傍のカメラにいる人にのみ類似度計算を行う ❏ ローカルマッチングした結果をグラフ

Graph/REID グラフデータベースの活用の特徴  提案手法は、ターゲットユーザの服装が変わっても (注) 、１枚の画像から全体の動線を得ることが可能注）カメラ内で服装を変更する場合 1 2 4 5

Graph/REID Task: 対象者の最新位置情報を検索する  Task: • ターゲットの最新位置を取得 (= the latest STrack)

Graph/REID Methods for Latest STrack Retrieval  NAIVE (w/o GraphDB; Brute-force

Graph/REID Result：処理時間  • データの増加に伴い、処理時間が線形で増加する。特に、 Naive methods では、増加率が一番高い。 • rootノードから検索する方法(GRAPH_1A/B)

Result - Accuracy • Ground Truth = 最新のSTrackノード Method Accuracy

Woven Cityを活用した実証計画の事例＆データ基盤の紹介 Vision AI P/F Human in the

まとめ ❏ Woven City「テストコースの街」 Purpose ：　Well-being for All, 幸せの量産 Vision