SSII2024 [PD] SSII、次の30年への期待

30周年記念パネルディスカッション SSII, 次の30年への期待 2024.6.12 鷲見和彦（青山学院大学）

SSII2024 第30回画像センシングシンポジウム 30年を振り返って • 1991: 画像解析ハンドブック（2004年改訂） • 高木幹雄ほか編著、東京大学出版会 •
リモートセンシングからロボットビジョン・人物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開 • 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 馬場口委員長指示で電子情報積信学会誌に寄稿 • 内田誠一,佐藤真一,佐藤洋一,日浦慎作,福井和広,鷲見和彦 • 2010年からの10年間に挑戦すべき課題を議論 3 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウム画像解析ハンドブック（第2版）当時のテーマ • リモートセンシングからロボットビジョン・人物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開
• 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 (第2版の装丁とカラー図表ページ) 人物姿勢推定や人体モデル・パーツセグメンテーションなど，今も研究されている技術が掲載されている → 研究対象の大きな変化はない 4 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf 5 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 Action Recognition Dense Image Captioning Salient Object Recognition Depth camera, LiDAR, 4DRadar, etc. Video based Future Prediction Medical Computer Aided Diagnosis OCR in the wild Visual Question and Answering 予想の8割の課題で，現在ベンチマークが行われるほど発展した！ 6 Kazuhio Sumi, SSII2024 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf

SSII2024 第30回画像センシングシンポジウム予想超え: Vision & Language • Visual Q&A
(VQA)では，Yes/No ではなく，より日常的な QA が可能になった • Vision から得られる特徴表現と，Language から得られる特徴表現を，おなじ空間にマッピングできた（例：CLIP） • Large Language Model が Multimedia 化され VL タスクを解いた（例：GPT 4o） 8 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウム予想越え: ChatGPT 4o の例 9 Kazuhio Sumi,
SSII2024 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)

SSII2024 この写真には、いくつかの要素が映っています。以下に、一つ一つの要素を説明します。車: 写真の中心には、青いスポーツカー（おそらくロータスエリーゼ）が見えます。車は道路の角に駐車されているようです。標識: 車の後ろには、いくつかの標識があります。一つは駐車禁止の標識で、もう一つは進入禁止の標識のように見えます。これらの標識は、特定のエリアでの交通ルールを示しています。自転車: 右側には緑色の自転車が駐輪されています。自転車は自転車ラックに固定されているようです。歩行者: 画面の左側と右側には、歩道を歩いている人々が見えます。彼らは、日常の活動を行っているようです。建物: 背景には、歴史的な建物や一般的な都市の建物が並んでいます。これらの建物は、ヨーロッパの都市の典型的な建築スタイルを反映しています。植栽: 道路の中央分離帯には、いくつかの植栽が見られます。これらは都市の緑化の一環として設置されています。通りの風景: 全体として、写真はヨーロッパの都市の一角を写しており、古い建物とモダンな交通手段が共存している様子が見て取れます。この写真は、おそらくヨーロッパの都市で撮影されたものであり、特に駐車ルールが厳しい地域を示している可能性があります。 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)

SSII2024 (鷲見)この写真にはどんな人物が映っていますか？人物を、互いに近くにいるグループに分けて、グループごとに説明してください。 (A) この写真には、いくつかの人物が映っています。以下に、互いに近くにいるグループごとに説明します。左側のグループ: 写真の左側には、二人の歩行者が見えます。一人は男性で、黒いコートを着ており、もう一人は女性で、薄い色のコートを着ています。二人は建物の前を歩いているようです。右側のグループ: 写真の右側には、二人の人物が見えます。一人は男性で、緑色の自転車の近くに立っています。彼はカジュアルな服装をしており、何かを見ている様子です。もう一人の人物は歩道を歩いているように見えます。（鷲見註：もう一人はいない！）背景の人物: 写真の奥の方、道路の向こう側に、さらに二人の人物が歩いているのが見えます。これらの人物は遠くにいるため、詳細な特徴はわかりませんが、歩行者として通りを歩いているようです。 (鷲見) この写真が撮影された場所を推定してみて下さい (A) この写真が撮影された場所を推定するためには、以下の要素を考慮します：建築様式: 背景の建物はヨーロッパ風の建築様式を持っており、特にパリのようなフランスの都市に見られるデザインです。道路標識: 道路標識にはフランス語で書かれたものが含まれているように見えます。例えば、駐車禁止の標識などです。車のナンバープレート: 車のナンバープレートは、フランスの形式に似ています。周囲の環境: 都市の景観や植栽、通りの雰囲気もパリに似ています。これらの要素を総合すると、この写真はフランスのパリで撮影された可能性が非常に高いです。現状：マルチメディア化された LLM は V&L 問題を人間以上の詳しさで解くことができる．ただし，ところどころ間違っていることもある． (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)

SSII2024 第30回画像センシングシンポジウム今後の課題 • Multimedia LLM の登場で研究の様相は一変 • Language
LLM が達成したレベルはかなり高い • OpenSource LLM に期待が集まっている • Image / Video LLM の性能は発展途上 • 一部のベンチマーキングの性能はとても良い • In the wild な問題への対応はこれから • Language LLM 並みに発展させるには，ひと工夫必要 • LLM の開発には膨大なリソースが必要で, 小規模組織の研究者には手が出ず, 使いこなし方が注目されている 12 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウム LLM が多数発表され, Open Source 実装も存在 13 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223

SSII2024 第30回画像センシングシンポジウム Open source の LLaMA から多くの研究が派生 14 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • 省リソース: “>10Bパラメータ” を変える 15 Kazuhio
Sumi, SSII2024 https://levelup.gitconnected.com/

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • MiniGPT-4: 学習済 Vision Enc. +
LLM 16 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2304.10592

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • Knowledge distillation of LLM 17
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2402.13116

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • Structured Knowledge and LLM 18
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2312.06323

SSII2024 第30回画像センシングシンポジウム期待その２：個別課題の解決 19 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.18223

SSII2024 第30回画像センシングシンポジウム期待その２：個別課題の解決 20 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.16199 •
Efficient Fine-tuning of LLM (LLaMa-Adapter) 既存の学習済みモデルを組み合わせて、個別の課題を fine tuning だけで解く枠組みが提案されている

SSII2024 第30回画像センシングシンポジウムこれから取り組む人へ • やっちゃいけないこと • SoTA な研究を追いかけて改良すること •
そういう研究は山ほどあるが，ほとんど残らない • ベンチマーキングでより良い値を出すこと • ゲームには良いが，成績は塗り替えられる • やってほしいこと • 新しいベンチマークが必要になる研究 • より実用に近づいているという証拠 • 課題は現場にある • 既存の課題ではなく，実フィールドの問題を見つけよう • 実用に至るマイルストーンとしてベンチマークを設定 21 Kazuhio Sumi, SSII2024

SSII2024 第30回画像センシングシンポジウムさいごに • 規模の大きな組織だけが LLM をリード • ネット上の大規模データと大量の計算リソース
• 同じことをやっても意味がない • 使い方を考えるのは研究者じゃなくてもできる • 認識を変えよう • 現実には解けてない問題が山ほどある • データはネット上にもなく，未整理である • 個別問題に大量の計算リソースは投入できない • だから皆さんの力が必要です．期待しています 22 Kazuhio Sumi, SSII2024

SSII2024 [PD] SSII、次の30年への期待

SSII2024 [PD] SSII、次の30年への期待

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

30周年記念パネルディスカッション SSII, 次の30年への期待 2024.6.12 鷲見和彦（青山学院大学）

SSII2024 第30回画像センシングシンポジウム 30年を振り返って • 1991: 画像解析ハンドブック（2004年改訂） • 高木幹雄ほか編著、東京大学出版会 •

SSII2024 第30回画像センシングシンポジウム画像解析ハンドブック（第2版）当時のテーマ • リモートセンシングからロボットビジョン・人物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開

SSII2024 第30回画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •

SSII2024 第30回画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •

SSII2024 第30回画像センシングシンポジウム予想超え: Vision & Language • Visual Q&A

SSII2024 第30回画像センシングシンポジウム予想越え: ChatGPT 4o の例 9 Kazuhio Sumi,

SSII2024 第30回画像センシングシンポジウム予想越え: ChatGPT 4o の例 10 Kazuhio Sumi,

SSII2024 第30回画像センシングシンポジウム予想越え: ChatGPT 4o の例 11 Kazuhio Sumi,

SSII2024 第30回画像センシングシンポジウム今後の課題 • Multimedia LLM の登場で研究の様相は一変 • Language

SSII2024 第30回画像センシングシンポジウム LLM が多数発表され, Open Source 実装も存在 13 Kazuhio

SSII2024 第30回画像センシングシンポジウム Open source の LLaMA から多くの研究が派生 14 Kazuhio

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • 省リソース: “>10Bパラメータ” を変える 15 Kazuhio

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • MiniGPT-4: 学習済 Vision Enc. +

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • Knowledge distillation of LLM 17

SSII2024 第30回画像センシングシンポジウム期待その１：新しい原理 • Structured Knowledge and LLM 18

SSII2024 第30回画像センシングシンポジウム期待その２：個別課題の解決 19 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.18223

SSII2024 第30回画像センシングシンポジウム期待その２：個別課題の解決 20 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.16199 •

SSII2024 第30回画像センシングシンポジウムこれから取り組む人へ • やっちゃいけないこと • SoTA な研究を追いかけて改良すること •

SSII2024 第30回画像センシングシンポジウムさいごに • 規模の大きな組織だけが LLM をリード • ネット上の大規模データと大量の計算リソース