Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

SSII2024 [PD] SSII、次の30年への期待

SSII2024 [PD] SSII、次の30年への期待

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. SSII2024 第30回 画像センシングシンポジウム 30年を振り返って • 1991: 画像解析ハンドブック(2004年改訂) • 高木幹雄ほか編著、東京大学出版会 •

    リモートセンシングからロボットビジョン・人物解析ま での総合的な技術の総括 • 1994: パターン認識・理解の新たな展開 • 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 馬場口委員長指示で電子情報積信学会誌に寄稿 • 内田誠一,佐藤真一,佐藤洋一,日浦慎作,福井和広,鷲見和彦 • 2010年からの10年間に挑戦すべき課題を議論 3 Kazuhio Sumi, SSII2024
  2. SSII2024 第30回 画像センシングシンポジウム 画像解析ハンドブック(第2版)当時のテーマ • リモートセンシングからロボットビジョン・人 物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開

    • 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 幹事団有志により電子情報積信学会誌に寄 稿 • 2010年からの10年間に挑戦すべき課題を議論 (第2版の装丁とカラー図表ページ) 人物姿勢推定や人体モデル・パーツ セグメンテーションなど,今も研究 されている技術が掲載されている → 研究対象の大きな変化はない 4 Kazuhio Sumi, SSII2024
  3. SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •

    PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf 5 Kazuhio Sumi, SSII2024
  4. SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •

    PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 Action Recognition Dense Image Captioning Salient Object Recognition Depth camera, LiDAR, 4DRadar, etc. Video based Future Prediction Medical Computer Aided Diagnosis OCR in the wild Visual Question and Answering 予想の8割の課題で,現在ベンチ マークが行われるほど発展した! 6 Kazuhio Sumi, SSII2024 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf
  5. SSII2024 第30回 画像センシングシンポジウム 予想超え: Vision & Language • Visual Q&A

    (VQA)では,Yes/No ではなく, より日常的な QA が可能になった • Vision から得られる特徴表現と,Language から得られる特徴表現を,おなじ空間にマッピ ングできた(例:CLIP) • Large Language Model が Multimedia 化さ れ VL タスクを解いた(例:GPT 4o) 8 Kazuhio Sumi, SSII2024
  6. SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 9 Kazuhio Sumi,

    SSII2024 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
  7. SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 10 Kazuhio Sumi,

    SSII2024 この写真には、いくつかの要素が映っています。以下に、一つ一つの 要素を説明します。 車: 写真の中心には、青いスポーツカー(おそらくロータス エリー ゼ)が見えます。車は道路の角に駐車されているようです。 標識: 車の後ろには、いくつかの標識があります。一つは駐車禁止の 標識で、もう一つは進入禁止の標識のように見えます。これら の標識は、特定のエリアでの交通ルールを示しています。 自転車: 右側には緑色の自転車が駐輪されています。自転車は自転車 ラックに固定されているようです。 歩行者: 画面の左側と右側には、歩道を歩いている人々が見えます。彼 らは、日常の活動を行っているようです。 建物: 背景には、歴史的な建物や一般的な都市の建物が並んでいます。 これらの建物は、ヨーロッパの都市の典型的な建築スタイルを 反映しています。 植栽: 道路の中央分離帯には、いくつかの植栽が見られます。これら は都市の緑化の一環として設置されています。 通りの風景: 全体として、写真はヨーロッパの都市の一角を写しており、古 い建物とモダンな交通手段が共存している様子が見て取れます。 この写真は、おそらくヨーロッパの都市で撮影されたものであり、特 に駐車ルールが厳しい地域を示している可能性があります。 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
  8. SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 11 Kazuhio Sumi,

    SSII2024 (鷲見)この写真にはどんな人物が映っていますか?人物を、互いに近く にいるグループに分けて、グループごとに説明してください。 (A) この写真には、いくつかの人物が映っています。以下に、互いに近 くにいるグループごとに説明します。 左側のグループ: 写真の左側には、二人の歩行者が見えます。一人は男 性で、黒いコートを着ており、もう一人は女性で、薄い色のコートを 着ています。二人は建物の前を歩いているようです。 右側のグループ: 写真の右側には、二人の人物が見えます。一人は男性 で、緑色の自転車の近くに立っています。彼はカジュアルな服装をし ており、何かを見ている様子です。もう一人の人物は歩道を歩いてい るように見えます。(鷲見註:もう一人はいない!) 背景の人物: 写真の奥の方、道路の向こう側に、さらに二人の人物が歩 いているのが見えます。これらの人物は遠くにいるため、詳細な特徴 はわかりませんが、歩行者として通りを歩いているようです。 (鷲見) この写真が撮影された場所を推定してみて下さい (A) この写真が撮影された場所を推定するためには、以下の要素を考慮 します: 建築様式: 背景の建物はヨーロッパ風の建築様式を持っており、特にパ リのようなフランスの都市に見られるデザインです。 道路標識: 道路標識にはフランス語で書かれたものが含まれているよう に見えます。例えば、駐車禁止の標識などです。 車のナンバープレート: 車のナンバープレートは、フランスの形式に似 ています。 周囲の環境: 都市の景観や植栽、通りの雰囲気もパリに似ています。 これらの要素を総合すると、この写真はフランスのパリで撮影された 可能性が非常に高いです。 現状:マルチメディア化された LLM は V&L 問題を人間以上の詳しさで解 くことができる.ただし,ところどこ ろ間違っていることもある. (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
  9. SSII2024 第30回 画像センシングシンポジウム 今後の課題 • Multimedia LLM の登場で研究の様相は一変 • Language

    LLM が達成したレベルはかなり高い • OpenSource LLM に期待が集まっている • Image / Video LLM の性能は発展途上 • 一部のベンチマーキングの性能はとても良い • In the wild な問題への対応はこれから • Language LLM 並みに発展させるには,ひと工夫必要 • LLM の開発には 膨大なリソースが必要で, 小規模組織 の研究者には手が出ず, 使いこなし方が注目されている 12 Kazuhio Sumi, SSII2024
  10. SSII2024 第30回 画像センシングシンポジウム 期待その2:個別課題の解決 20 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.16199 •

    Efficient Fine-tuning of LLM (LLaMa-Adapter) 既存の学習済みモデルを組み合わせて、 個別の課題を fine tuning だけで解く 枠組みが提案されている
  11. SSII2024 第30回 画像センシングシンポジウム これから取り組む人へ • やっちゃいけないこと • SoTA な研究を追いかけて改良すること •

    そういう研究は山ほどあるが,ほとんど残らない • ベンチマーキングでより良い値を出すこと • ゲームには良いが,成績は塗り替えられる • やってほしいこと • 新しいベンチマークが必要になる研究 • より実用に近づいているという証拠 • 課題は現場にある • 既存の課題ではなく,実フィールドの問題を見つけよう • 実用に至るマイルストーンとしてベンチマークを設定 21 Kazuhio Sumi, SSII2024
  12. SSII2024 第30回 画像センシングシンポジウム さいごに • 規模の大きな組織だけが LLM をリード • ネット上の大規模データと大量の計算リソース

    • 同じことをやっても意味がない • 使い方を考えるのは研究者じゃなくてもできる • 認識を変えよう • 現実には解けてない問題が山ほどある • データはネット上にもなく,未整理である • 個別問題に大量の計算リソースは投入できない • だから皆さんの力が必要です.期待しています 22 Kazuhio Sumi, SSII2024