20260208_第66回コンピュータビジョン勉強会

by KeiichiIto1978

Embed

Start on current slide

Slide 1

Slide 1 text

| 1 第66回コンピュータビジョン勉強会＠関東 WorldPrediction A Benchmark for High-levelWorld Modeling and Long-horizon Procedural Planning Delong Chen, Willy Chung, Yejin Bang, Ziwei Ji, Pascale Fung

Slide 2

Slide 2 text

| 2 この論文を選んだ理由個人的に世界モデル=自動運転 or ロボット制御のイメージが強かった上記用途以外のテーマって無いのかな？と調べたのがきっかけ。ただし、論文自体はベンチマークデータセットの提案を行っているもので、新しい世界モデル手法を提案しているわけではない。

Slide 3

Slide 3 text

本題に入る前に・・・

Slide 4

Slide 4 text

前回のCV勉強会懇親会でこんな会話をしました

Slide 5

Slide 5 text

| 以前、やる夫で学ぶ〇〇をやってだたすべった事があるんですよねー某氏 Me そうなんですかー。（次回やってみよー）

Slide 6

Slide 6 text

| 6 やる夫で学ぶ WorldPrediction A Benchmark for High-levelWorld Modeling and Long-horizon Procedural Planning Delong Chen, Willy Chung, Yejin Bang, Ziwei Ji, Pascale Fung 「今更『世界の予測』かお？動画生成AIならSoraとかでももう完璧じゃないかお？この論文、読む必要あるか？」「その考えが甘いんだろ、常識的に考えて。ピクセル生成で出来ることと、因果関係を理解して計画でることは別物だ。 Meta FAIRと香港科技大の『 WorldPrediction 』で現実をみせてやる」

Slide 7

Slide 7 text

| 7 先に要約するお WorldPredictionは「人間は簡単にできるが、モデルはまだ全然できない」高レベル世界理解と長期計画を、視覚のみで厳密に測る初のベンチマークデータを発表したんだお！

Slide 8

Slide 8 text

| 8 イントロダクション：高レベルな「世界モデル」とは？従来の低レベル世界モデル • 直感物理・ロボット制御 (Intuitive Physics) • 低レベルで高周波な制御 • 物理法則だけで解ける問題必要な高レベル世界モデル • 料理や修理のような複雑な人間活動 • 時間的・意味的な抽象化 (Semantic Abstraction) • 「電池を交換」「家具組立」等の複雑な行動現在のAI（特に生成モデル）がこれを習得できているかは不明動画が綺麗ならそれでいいお。今さら必要なのかお？料理や修理のような『段取り』が必要な作業は、物理法則だけじゃ解けないんだ。 AIにも人間のような『世界モデル』が必要だという話だ

Slide 9

Slide 9 text

| 9 関連研究との違い：なぜ新しいベンチマークが必要か？既存研究の限界ロボティクス自動運転ビデオ生成短期計画 (3-4 steps) ※ ドメインが限定的で、複雑な人間活動を測れない WorldPrediction 多様なドメイン：料理、組立、修理などアーキテクチャ非依存：VLM vs Diffusion vs LLM タスク非依存：特定のモデルに縛られない複雑な人間活動を理解できるか測定でも自動運転とかのベンチマークは山ほどあるお。それで十分じゃないのかお？それらは『ハンドルを右に切る』レベルの話だ。『電池を交換する』といった複雑な人間活動を理解出ているかを測る物差しがなかったんだ

Slide 10

Slide 10 text

| 10 理論的定式化：POMDP（部分観測半マルコフ決定過程）世界モデルの本質的要素 S Latent States (潜在状態) 真の世界の状態。直接は見えない「真実」。 O Observation (観測) 画像や動画。Sの不完全な断片。 A Action (行動) 実行される高レベルな行動。 T Transition (遷移) 行動Aによって世界がどう変わるかのルール AIは画像(O)から真実(S)を推測し、未来を予測しなければならない数式が出た瞬間に脳が停止したお… Sってなんだお？『真実』だ。画像(O)はあくまで断片的な情報に過ぎない。 AIは画像(O)から真実（S)を推測し、未来を予測しなければならない。これが世界モデルの本質だ。

Slide 11

Slide 11 text

| 11 ベンチマークの目的：2つのタスク WorldPrediction-WM 初期状態から最終状態への変化を引き起こした「行動」を当てる。 (World Modeling: 単一行動の理解) WorldPrediction-PP 長期間の変化をつなぐ「行動の順序」を当てる。 (Procedural Planning: 3〜10ステップの計画) 要するに『何をしたか』と『どういう順番でしたか』を当てるゲームかお？その通り。だが、選択肢の中には『偽物』が混ざっている。それを見抜けるかが勝負だ。

Slide 12

Slide 12 text

| 12 ベンチマーク設計：識別的タスク (Discriminative Formulation) 公平な比較評価の客観性柔軟性 4択クイズならカンで当たるお！楽勝だお！！そう思うだろ？だが、このテストには AIを騙すための『罠』が仕掛けられている。

Slide 13

Slide 13 text

| 13 難易度調整の要：「Action Equivalents（行動の等価性）」の罠罠：AIは行動の内容ではなく、初期状態・最終状態と「背景が似ている」動画を選ぼうとする。対策：正解の選択肢に、全く別の場所・視点で撮影された「同じ行動」を使用する補足：ベンチマークで入力されるのは赤枠内の情報のみ。背景が同じ動画を選べば正解・・・じゃないのかお？残念だったな。正解の動画は、全く違うキッチンで撮影された動画かもしれない。

Slide 14

Slide 14 text

| 14 品質管理：観測可能性フィルタリングでも、画面の外で何か起きたら人間だって間違えるおその通り。だから人間でもわからない『悪問』は徹底的に排除した可視性 (Visibility) Problem 部分観測性により、肝心の変化が映っていない Solution DINOv2特徴量で、変化が激しすぎるサンプルを除外視認性 (Recognizability) Problem 手元が見えない、何をしているか判断不可能 Solution VLMを用いて、手元が見えない動画を自動除外その上で、2名の目視判断で両名正解となった問題のみを採用

Slide 15

Slide 15 text

| 15 実装：多様なデータソース Web上の指示動画 (Instructional Videos) COIN / CrossTask 一人称視点の熟練動作 (Egocentric Skilled) EgoExo4D / EPIC-KITCHENS-100 家具の組み立て (Furniture Assembly) IKEA-ASM 対象ドメイン料理 (Cooking) 組立 (Assembly) 修理 (Repair) 単なる移動ではない複雑な手順と判断が必要 IKEAの家具組み立て …人間でも難しいやつだお… そう、多様なドメインが含まれている。単なる移動や単純作業だけではないがポイントだ。

Slide 16

Slide 16 text

| 16 評価対象：チャレンジャーたち ● 既存のVLMなどが、どの程度暗黙的に『世界モデル』を内包しているのかを評価 Vision-Language Models (VLMs) 画像を直接見て判断する Ex: Qwen2.5-VL, GPT-4V Socratic LLMs 画像 → テキスト説明 → 推論 Ex: GPT-4o + Captioner Video Diffusion 未来の動画を生成して比較する Ex: CogVideoX GPT先生なら余裕で全問正解だお！最強だお！果たしてそうかな？ Socraticアプローチと直接視覚を使うVLM、どちらが勝つか見ものだ。

Slide 17

Slide 17 text

| 17 結果：人間とAIのギャップ半分くらいしか当たってないお！サイコロ振るレベルのもあるお！これが現実だ。最新AIでも、高レベルな因果関係の理解はまだこの程度なんだ。

Slide 18

Slide 18 text

| 18 考察：何が足りないのか因果関係の理解 (Causality)  表面的な視覚的相似性に頼っている  「なぜそうなるのか」という真のメカニズムを理解していない長期的推論 (Long-term Reasoning)  複数ステップにわたる計画が苦手  各ステップ間の依存関係を正しく把握できない抽象化のレベル (Abstraction)  低レベルな物理制御は得意だが、高レベルな意味的行動は苦手  「料理する」「修理する」といった概念の理解が浅い多様性への対応 (Diversity)  異なるコンテキスト（背景・視点）での一般化が不十分  見た目が変わると同じ行動だと認識できないつまり、AIはまだ『世界モデル』を本当には持ってないってことか…

Slide 19

Slide 19 text

| 19 まとめ ● 世界モデル=自動運転 or ロボティクスのイメージがあったので、多ドメインなデータセットというのは興味深かった。 ● 人間が理解可能なデータセットをベースに性能の良い/悪いを判断するという条件設定は好感を持てた。（これは実務でも大事だと思う） ● やる夫ネタでスライド作っていくは結構むずかった。 ● NoteBoolLMが生成したやる夫とやらない夫が美化されすぎ。

Slide 20

Slide 20 text

Thank you very much for your time!!