大規模走行データを効率的に活用する検索システムの開発第3回Data-Centric AI勉強会

by Kohei Iwamasa

Slide 1

Slide 1 text

大規模走行データを効率的に活用する検索システムの開発第3回 Data-centric AI 勉強会 2023/09/19 岩政公平(Turing株式会社) @colum2131

Slide 2

Slide 2 text

Section 01 - 01 自己紹介自己紹介岩政公平 (Kohei Iwamasa) @colum2131 ● 九州大学大学院システム生命科学府一貫制博士前期課程在学 ● Turing株式会社 AIソフトウェアチームエンジニア ○ 2022年8月-2023年3月インターン ○ 2023年4月入社 ● Kaggle Competitions Master

Slide 3

Slide 3 text

Section 01 - 02 会社概要完全自動運転EVの量産を目指すTuring株式会社 2021年8月創業 2021年12月 AI-based PoC 自動運転システムを構築 2022年7月 10億円の資金調達 2022年10月北海道一周（約1,400㎞）を自動運転で走破 2022年 11月 500時間分の走行データ基盤を作成 2023年6月車両生産拠点開所 Turing Kashiwa Nova Factory 2023年2月 THE FIRST TURING CARを販売完了 2023年3月 AIデザインの「完全自動運転EV」コンセプトカーを発表 2023年3月国産LLM開発着手 2023年4月経済産業省主導「J-Startup企業」に選出創業　　　 2021年8月20日事業内容　　完全自動運転EV量産本社所在地　　千葉県柏市社員数　　 40名（正社員27名、インターン・アルバイト13名）

Slide 4

Slide 4 text

Section 01 - 03 会社紹介チームリサーチチーム Turingの自動運転AIを開発するチーム。リサーチ・基盤モデル開発・MLOps・大規模インフラ構築などを行う。プロダクトチーム自動運転AIと車両をつなぐチーム。 AI、ソフトウェア、 OS、計算機ハードウェアなど多岐にわたるレイヤで開発を行う。 UXチーム IVIシステム構築を行うチーム。車に独自のスマホを搭載するようなイメージで、 OS・アプリ・バックエンド・低レイヤの開発を行う。車両開発チーム車体を開発するチーム。車体・シャシー・パワートレイン・駆動系など多くのレイヤを開発する。メカ・エレキ・低レイヤ・回路など。 🤗Heron

Slide 5

Slide 5 text

Section 01 - 04 End-to-endの自動運転AIを目指す Turingは、カメラベースの大規模NNで完全自動運転を目指す！ ● 従来の自動運転のアプローチは、カメラやLiDARなどのセンサや高精度な位置情報・地図情報を活用している ● 限定区間でのドライバーレスの自動運転は可能になったが、全ての道路や複雑な状況を判断・解決は困難 ● ドライバー同士のコミュニケーションが介入することや高度な判断を求められるシーンは従来のアプローチには限界があり、”賢い知能”を持つ大規模NNによるEnd-to-endのアプローチで完全自動運転の実現に挑戦している Visionを主とした大規模なデータの収集と大規模なデータを処理して学習する基盤を整える必要がある UniAD[Hu et al. 2023]

Slide 6

Slide 6 text

背景・取り組むこと Section 02 - 00

Slide 7

Slide 7 text

Section 02 - 01 Data-Centricな自動運転AIの開発自動運転AIには大規模で質の高いデータが必要 ● 多様性：撮影環境や地域が異なる多様な交通条件での走行データが求められる ● フィルタリング：上手な運転のみを学習させたい ● Auto-labeling：教師データも質と量が重要で、高精度な生成アプローチが必要である

Slide 8

Slide 8 text

Section 02 - 02 Data-Centricな自動運転AIの開発自動運転AIには大規模で質の高いデータが必要 ● 多様性：撮影環境や地域が異なる多様な交通条件での走行データが求められる ● フィルタリング：上手な運転のみを学習させたい ● Auto-labeling：教師データも質と量が重要で、高精度な生成アプローチが必要であるカメラ + 各種センサ情報を継続的に収集できる車載システムを構築！ ● カメラやGPS、加速度計などのセンサから、アクセル、ブレーキ、ハンドルなどの車の状態など ● 低コストに、大規模なデータを収集を可能にデータ収集車両全方位を撮影 → 現在6,000時間以上の走行データを収集！

Slide 9

Slide 9 text

Section 02 - 03 機械学習システムデータ取得・アップロードデータ処理・データレイク学習デプロイ

Slide 10

Slide 10 text

Section 02 - 04 大規模データの課題点数千時間の動画から狙った状況の動画を抽出したい例えば、 ● 高速道路で走行している動画が欲しい ● 右折をしている動画が欲しい ● 市街地で走行している動画が欲しい ● 雨が降っている夜の動画が欲しい ● 交差点で歩行者がいる動画が欲しい → 速度が80km/h以上の動画を抽出する → ステアリング角が一定角度以上の動画を抽出する？ → 位置情報からどうにか …？ → 時間はどうにかなるけど雨はどうする …？？ → どうすべき…？？？使いたい動画を”いい感じに”検索するのが難しい…

Slide 11

Slide 11 text

Section 02 - 05 「信号機が写っている動画を抽出する」には？必要な情報は、信号機が写っているかどうか、昼か夜かの時間情報、位置情報など解決案として、動画ごとに昼・夜の時間などの動画に紐づくメタデータと物体検出モデルなどで予測した信号機の有無といったカラムがあるデータベースを作成する動画ID 時間(昼・夜) 信号機の有無緯度・経度 1 昼無し … 2 夜有り … 3 … … … 一方で問題点として、 ● 物体検出モデルが正しい検出をしない場合がある ● タスクごとにデータベースを更新する必要がある ● 複雑な状況に対応させることが困難 ○ “晴れだけど道路が濡れている”はどう持つ？

Slide 12

Slide 12 text

Section 02 - 06 自然言語で検索できると良さそう？ CLIP[OpenAI. 2021]のImage/Text Encoderを用いて簡単な情報検索モデルが構築できる！ ● 比較的シンプルに文章で画像を検索することが可能 ● 車の速度や時間など画像以外で得られる情報を活用することが難しい？ Text Encoder Image Encoder 検索文 “夜の信号機” 画像の埋め込みベクトル検索文の埋め込みベクトル類似した画像を検索検索された画像入力画像 import torch from PIL import Image import clip # pip install git+https://github.com/openai/CLIP.git model, transform = clip.load("ViT-B/32", device="cuda") image_paths = ["image1.jpg", "image2.jpg", ...] images = [ transform(Image.open(path)).unsqueeze(0) for path in image_paths ] images_tensor = torch.cat(images).to("cuda") text_tendor = clip.tokenize(["query"]).to("cuda") with torch.no_grad(): image_f = model.encode_image(images_tensor) text_f = model.encode_text(text_tendor) sim = (text_f @ image_f.T).squeeze(0) ranking = torch.argsort(sim, descending=True) print([image_paths[i] for i in ranking])

Slide 13

Slide 13 text

検索システムの構築 Section 03 - 00

Slide 14

Slide 14 text

Section 03 - 01 実際のデモ

Slide 15

Slide 15 text

Section 03 - 02 手法の概要

Slide 16

Slide 16 text

● 晴れた市街地だ ● 右側に車 ● 信号機は青色 ● 歩行者用信号機は赤色 ● 横断歩道が前方にある ● 横断歩道が左側にもある ● 歩行者が4人いる Section 03 - 03 必要なデータの抽出走行データから動画と車の状態に関するログを抽出する ● 動画は画像に変換されてImage CaptioningとDense Captioningによって、画像レベル、画像中の物体レベルでキャプショニング（説明文付け）を行う ● 車の状態のログから、撮影時刻、平均速度、ステアリング角を抽出する ● 時刻は15:45 ● ステアリング角度は0度 ● 車の速度は10km/h

Slide 17

Slide 17 text

Section 03 - 04 BLIP2による画像キャプショニング BLIP-2[Li et al. 2023]は、Image CaptioningなどImage-to-Textタスクで高精度なモデル ● 右の画像で、Question: which city is this? Answer:というプロンプトに対してa car driving down a highway with a factory in the backgroundと出力される！ ● 一方で細かな物体検出は苦手であり、Question: are there traffic lights in this photo? Answer:というプロンプトに対してyesと出力される… ● 画像全体の情報をテキストにする！

Slide 18

Slide 18 text

Section 03 - 05 GRiTによる”密な”キャプショニング Dense Captioningは画像の局所領域と自然言語を対応づける ● 物体検出とImage Captioningが合わさった手法 ● GRiT[Wu et al. 2022]はDense Captioningにおける高精度なモデル ● 画像の細かな領域の情報をテキストにする！ ● 前方のバイクに対して → a person riding a motorcycle ● 前方の奥の対向車に対して → white car on the road ● 空に対して → a cloudy gray sky ● 左の標識に対して → a white sing on the side of the road など GRiTより一部改変[Wu et al. 2022]

Slide 19

Slide 19 text

Section 03 - 06 GPT-3.5で文章に変換するプロンプト BLIP2やGRiTの結果、車の状態のログからのデータをプロンプトとして入力する ● BLIP2は、画像全体の説明と、画像のみから得られる天気と時刻の説明文 ● GRiTは、物体の説明文とそのBounding Boxの座標値 ○ 例）white line on the road: X:1292 Y:747 Width:360 Height:295 ● ログは、適切な言葉に変換する ○ 速度であれば平均速度25km/h以下はslowで、60km/h以上であればfast など GPT3.5でも適切な文章に変換できるようにプロンプトの先頭に以下を追加 ● 送信側が500トークン、返答側が250トークン程度のため10,000サンプルで12.5ドルで可能翻訳）ドライブレコーダーで撮影されたビデオのサムネイル画像のオブジェクト認識モデル、天気の説明、実際の撮影時間、画像だけから推測される昼夜の時間帯（昼または夜）、車の平均速度、ステアリングホイールの最大角度が与えられます。視覚の制約を持ちながら、知的な画像キャプション作成者であると仮定してください。与えられた位置情報は、オブジェクトの左上の座標とオブジェクトのサイズです。オブジェクトの相対的な位置とサイズを使用して、小学生が理解できるように、この画像を約150語で説明してください。車がどれくらい速く走っているか（速い、遅い、普通）と、右に曲がっているのか、左に曲がっているのか、またはまっすぐ進んでいるのかを含めてください。

Slide 20

Slide 20 text

Section 03 - 07 実際に画像を文章化してみる

Slide 21

Slide 21 text

Section 03 - 08 実際に画像を文章化してみる翻訳）車のドライブレコーダーが撮影した動画のサムネイル。車は亀のようにゆっくりと進んでいる。小さなカーブを曲がりながら左折している。画像は太陽が高い位置にある正午頃に撮影された。道路には、車を誘導する白い線が見える。黒と黄色の標識が2つ近くに立っており、少し離れた場所にも同じような標識がある。これらの標識はドライバーに情報を与えている。金属製のポールに取り付けられた大きな看板もある。遠くの広い畑の近くに道路があり、車が通れるようになっている。道路の近くには赤と白の標識があり、ドライバーに重要なことを警告している。他にも、黄色に黒文字の看板や、値段の書かれた看板など、文字や絵の書かれた看板がある。周囲を見回すと、ドライバーの安全を守るための標識や表示が道路上にたくさんあることに気づく。注意標識、はしごのような構造物、ポールの上の赤いライト、色や形の違う標識などだ。オレンジと白のコーンも見えるが、これは通常、特別な理由で設置されるものだ。全体として、ドライバーはゆっくり運転しながら道路標識に注意を払い、曲がっているように見える。

Slide 22

Slide 22 text

Section 03 - 09 テキストをベクトル化して検索 ● openai.Embeddingのtext-embedding-ada-002でテキストをベクトルに変換 ● 検索文もベクトル化して、faiss[Johnson et al. 2019]を用いて高速な近傍探索で検索 ● StreamlitでWebアプリ化や、FastAPIでのAPI化で大量データの抽出を容易になった🙌 streamlitでの操作 curl -X POST "http://localhost:8000/search/" \ -H "accept: application/json" \ -H "Content-Type: application/json" \ -d "{\"search_text\":\"night\",\"download_number\":10}" FastAPIでのリクエストコマンド

Slide 23

Slide 23 text

Section 03 - 10 検索文：“My car is waiting at the traffic light in front of the intersection at night.”

Slide 24

Slide 24 text

Section 03 - 11 検索文：“Many people crossing the intersection in the city center.”

Slide 25

Slide 25 text

Section 03 - 12 検索文：“There is a motorcycle ahead.”

Slide 26

Slide 26 text

Section 03 - 13 ランダム選択と検索システムでの信号機画像の割合画像に含まれる信号機数の割合 ● ランダムに選択すると信号機を含む画像の割合は18.6%に対し、検索システムは37.6%！ ○ “矢印信号”などの検索も可能で、学習に必要なデータを効果的に増やせた！ ○ 誤った画像を検索する場合もあるが効果的な負例として機能する

Slide 27

Slide 27 text

Section 04 - 01 今後の展開・活用 ● 画像認識するAI → LLM → 文章検索と疎結合のためどこかにブレイクスルーが起きるとシステムが変更される可能性（良い意味で） ○ 特に画像認識するAI → LLMは、GPT-4やBard、これから出るモデルで解決できそう ● 信号機の検出以外の交通エージェントや標識検出など様々なタスクにも活用できる！ ○ 一方で日本特有の標識などを捉えることが困難 ○ 場合によってはOCRを導入することも考えられる ● “車線変更”や“高速道路での合流”などのコンテキストが動画説明に含まれていない ○ 走行動画の動作から意味説明を行う必要がある

Slide 28

Slide 28 text

Section 04 - 02 今後の展開・活用 ● 画像認識するAI → LLM → 文章検索と疎結合のためどこかにブレイクスルーが起きるとシステムが変更される可能性（良い意味で） ○ 特に画像認識するAI → LLMは、GPT-4やBard、これから出るモデルで解決できそう ● 信号機の検出以外の交通エージェントや標識検出など様々なタスクにも活用できる！ ○ 一方で日本特有の標識などを捉えることが困難 ○ 場合によってはOCRを導入することも考えられる ● “車線変更”や“高速道路での合流”などのコンテキストが動画説明に含まれていない ○ 走行動画の動作から意味説明を行う必要があるこれらの課題解決のためにHeronを開発中！

Slide 29

Slide 29 text

Section 04 - 03 VIsion&Language ModelのHeronの活用 ● TuringでVision&Languageを開発するライブラリのHeron公開 ○ 交通状況を説明するモデルや、日本に特化したVision&Languageを開発する天一問題

Slide 30

Slide 30 text

Section 04 - 04 HeronでVideo-to-Textモデルを開発 There is a bus running ahead. It is turning right and intruding into the oncoming lane. The traffic light is red. Please decelerate. What is the vehicle ahead? Where is it headed? What color is the traffic light? Should I accelerate? Should I decelerate? ● 現在は動画から文章を生成するVideo2TextのモデルもHeronで開発中！

Slide 31

Slide 31 text

まとめ：大規模走行データを効率的に活用する検索システムの開発 ● 背景・解決策 ○ 課題：大規模走行データセットから狙った状況を含む走行動画を抽出したい ○ 解決策：Vision&LanguageモデルやChatGPT APIを活用して　　　　テキストで検索できるシステムを構築 ● 検索システム ○ Image CaptioningとDense Captioningを活用して画像から状況を説明 ○ 撮影時刻や車の速度などとともに適切なプロンプトで GPT-3.5によって走行動画の文章化 → 1万動画で12.5ドルで文章化可能！ ○ この説明文や検索文を埋め込みベクトルに変換して faissで高速に検索 → 欲しい動画を抽出できた！ https://zenn.dev/turing_motors/articles/ai-movie-searcher