$30 off During Our Annual Pro Sale. View Details »

20250916_第65回 コンピュータビジョン勉強会

Avatar for KeiichiIto1978 KeiichiIto1978
November 15, 2025
110

20250916_第65回 コンピュータビジョン勉強会

Avatar for KeiichiIto1978

KeiichiIto1978

November 15, 2025
Tweet

Transcript

  1. 2 産総研発の 外観検査AI スタートアップ © 2024 Adacotech Incorporated. All Right

    Reserved 会社名 代表取締役 事業内容 取引実績 主要株主 社員数 株式会社アダコテック(設立:2012年3月12日) 河邑 亮太 産総研特許技術を基軸とした外観検査AIソフトウェ ア・アルゴリズムの開発・販売 自動車OEM/Tier1メーカー 、大手電子部品・半導 体、インフラ、警備会社 等 東京大学エッジキャピタルパートナーズ、東大IPC、 DNX Ventures、リアルテックファンド、Spiral Capital 他 約20名 Mission テクノロジーで 生産現場を エンパワーメントする
  2. 5 世の中に無限ゲームという概念があります 有限ゲーム ルール、勝敗、終了条件が明確に 定義される。 生成AI活用はあるが、あらかじめ固定 されたゲーム環境やルール内での利用 例:マリオ、チェス、将棋 無限ゲーム 終わりがなく、プレイを続けるこ

    とが目的。世界そのものが継続的 に変化生成される 例:Minecraft、Second Life? 生成AIとの融合 → Generative Infinite Game ゲーム要素、グラフィック、ルールをAIが都度生成し、AIがゲーム 世界を継続的に作る
  3. 6 従来技術の課題 従来手法の例:Unbounded(2024)のアプローチ LLMがテキスト履歴を読んで静止画キャプションを出力する。 T2Iモデルで画像を生成し、ユーザとの対話を継続する。 課題 ① 視覚的一貫性の欠如 過去の視覚情報を保持しない ため、キャラクターや背景の

    一貫性が毎ターン崩れる。 ② 動的シーン遷移の困難 静止画のみの生成で、連続し た「動的なシーン遷移」がで きない。 ③ ゲーム的進行の欠如 キャラクターの状態が固定さ れ、「ゲーム的な進行」(因 果律)がない。 結果として、「動くけれど続かないゲーム世界」しか作れない。
  4. 7 提案手法:AnimeGamer 目的 無限に続くアニメライフシミュレーションを実現。動画生成とキャラ状態管理を統合した「世界モデル」を構築する。 マルチモーダル履歴(Multimodal History) 過去の映像・動作・モーションスコープ・状態を保持し、文脈を維持する。 → 連続的なストーリー生成を可能にする基盤 次状態予測(Next

    Game State Prediction) 履歴+ユーザ指示から「次の動画表現+キャラ状態」を生成する。 → 視覚的・意味的に一貫した次のアクションを予測 ゲームステート構造 各ターンは「動画クリップ」+「ステータス」で構成される。 動画クリップ: キャラクターの動作を表現する動画フレーム ステータス: Stamina(体力)、Social(社交)、Entertainment(娯楽)の3値
  5. 9 生成した動画例 Character: Qiqi; Motion: quickly flying on broomstick; Background:

    day sky. Character: Qiqi; Motion: smoothly fly on broomstick; Background: day countryside. Character: Qiqi; Motion: gently sit on railing; Background: day town.
  6. 11 ① Animation Shot Tokenization & Decoder • アニメーションショットを構造的に「分解→符 号化」して再構成する仕組み。

    • 動作内容(テキスト)と視覚情報(フレー ム)を融合した特徴表現を作成。 • モーションスコープによって動きの強弱を制御 可能。 • CogVideoXベースの拡散モデルにより高品 質で一貫した動画を生成。
  7. 12 ② Next Game State Prediction • MLLMがゲームエンジンとして「次のアニメショット+キャラ状態」を予測。 • 履歴コンテキストを考慮して、一貫した映像生成を実現。

    • LoRAを利用して軽量学習を実施し、推論コストを抑制。 • ステータス(体力・社交・娯楽)も同時に出力し、ゲーム的連続性を担保。
  8. 14 実験条件 学習データセット アニメ映画から抽出した キャラクター中心のマルチターン動画データ(約2万クリップ) を用いて学習。 各クリップには、マルチモーダルモデル InternVLでキャラ・動作・背景・ステータス(体力/社交/娯楽)情報を 付与。 学習対象は「次のゲームステート(アニメーションショット+キャラ状態)」の予測。

    テストデータセット 同じアニメ映画群のうち、未使用シーンをテストに利用。 テスト時は GPT-4oを用いて複数キャラ・環境・動作を含む「10ターンの状態遷移」をシミュレーション。 評価ベンチマーク構成:20キャラクター、940種類の動作、133種類の環境、合計2,000ラウンドの生成評価。 評価方法 ① 自動評価指標 キャラ一貫性:CLIP-I, DreamSim 意味一貫性:CLIP-T, CLIP-TE 動作品質:ACC-F, MAE-F(光学フロー) ステータス更新精度:ACC-S, MAE-S 推論時間:1ターンあたり秒数 ② MLLM評価(GPT-4V)+人手評価 総合品質、指示追従、一貫性、キャラ/スタイル整合性、状態更新を10点満点で採点。