Slide 1

Slide 1 text

完全⾃動運転に向けた ⽣成AI開発の取り組み チューリング株式会社 CTO ⼭⼝祐

Slide 2

Slide 2 text

⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 CTO / Director of AI ● 産業技術総合研究所/⽶NISTで研究の傍ら、 囲碁‧将棋などのゲームAIを開発 ● 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 ● AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2

Slide 3

Slide 3 text

チューリング株式会社 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ 3

Slide 4

Slide 4 text

⾃動運転のレベル 4 Level 0 Level 1 Level 2 Level 3 Level 4 Level 5 ⾃動運転なし アクセル/ブレーキ or ハンドル 制御のいずれかを補助 アクセル/ブレーキとハンドル 制御を補助 特定条件‧地域でシステムが 運転を代替 (要ドライバー) 特定条件‧地域でシステムが 運転を代替 (無⼈運転) 完全⾃動運転 市販⾞の多くに搭載 (クルーズコントロール等) 国内外で開発 ⼀部商⽤サービスも ⼈類はまだ実現できていない

Slide 5

Slide 5 text

⽣成AIは「特に困難な状況」に対応 5 運転状況の難しさ 頻度 → 難 → 多 多い / 簡単 少ない / 難しい 現在の 運転⽀援 ⾼度⾃動運転 ⽣成AI

Slide 6

Slide 6 text

運転シーンと⼈間の思考 6 ここで左折したい どこを⾒ればよい?

Slide 7

Slide 7 text

運転シーンと⼈間の思考 7 ローカルの⾔語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 ⼈間の⾝体的 指⽰の理解 ⼈間は無意識のうちに多くの 「⽂脈」を理解している。 完全⾃動運転には 視覚情報と⾔語理解の融合が 必要(= マルチモーダル的理解)

Slide 8

Slide 8 text

チューリングの⽣成AI開発 9 ⾛⾏データ テキスト アノテーション 空間把握‧ ⾝体性の獲得 2. 運転ドメイン への適合 量産⾞両に 搭載 ⽇本の道路に 適合した ⾃動運転AI Webデータ 画像-⾔語 データセット ⾔語データセット LLM ⾃動運転 視覚-⾔語モデル フィルタリング ペア抽出 学習 視覚モデル と融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ ⾼速化 3. 分散環境による ⼤規模化

Slide 9

Slide 9 text

視覚-⾔語モデル 「Heron」を開発 9 ● 学習済みのLLMに視覚モジュールを追加 ● 730億パラメータの視覚-⾔語モデルを学習

Slide 10

Slide 10 text

Heronの出⼒例 10 この状況ではどのような点に気 をつけるべきですか? 画像では、道路⼯事中の作業員 が道路の⽚側に⽴ち、もう⽚側 に⻩⾊いコーンが置かれてい る。この状況を考えると、作業 員は交通の流れを妨げないよう に注意し、交通規則を遵守しな くてはならない。さらに、歩⾏ 者や他の⾞両が道路を横断する 際には、安全を確保し事故を避 けるために、コーンを迂回した り、⼀時停⽌したりする必要が ある。

Slide 11

Slide 11 text

⾞の運転操作も予測にも成功 11 緑: 実際の運転経路 ⻘: 「直進」の経路予測 ⾚: 「右折」の経路予測 交差点の場⾯。信号は⻘で、 右⾞線には数台の⾞が並んで います…(略) ⾃⾞は {直進, 右折} しようと しています...

Slide 12

Slide 12 text

⽣成的世界モデル「Terra」 12 ● 現在の視覚情報と経路を与え、未来の映像を出⼒させる ● 1500時間超の⾛⾏動画で学習し、交通環境に適合 未来の映像 現在の映像 ⾛⾏経路 ⽣ 成 ⼊ ⼒

Slide 13

Slide 13 text

⽣成的世界モデル「Terra」 13

Slide 14

Slide 14 text

プロンプトによる指⽰ 14 直進を指⽰ ⾞線変更を 指⽰ 14

Slide 15

Slide 15 text

完全⾃動運転に向けて 15 15 視覚-⾔語モデル 何がある? どうなる? ⽣成的世界モデル 将来的に統合 「⼈間のような」 運転を⽬指す