Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [PD] SSII、次の30年への期待
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
1.7k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2024 [PD] SSII、次の30年への期待
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
590
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1k
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
420
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
550
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
560
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
330
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
330
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
310
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
300
Other Decks in Research
See All in Research
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
220
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
1k
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
1k
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
290
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
800
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
180
Apache Gravitinoで実現する Icebergカタログ統合とアクセスの一元化
matsumooon
0
270
Data Visualization Tools in the Age of AI
flekschas
0
160
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.6k
Ankylosing Spondylitis
ankh2054
0
170
「AIとWhyを深堀る」をAIと深堀る
iflection
0
480
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
990
Featured
See All Featured
30 Presentation Tips
portentint
PRO
1
320
Test your architecture with Archunit
thirion
1
2.3k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Bash Introduction
62gerente
615
220k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
We Are The Robots
honzajavorek
0
240
Transcript
30周年記念パネルディスカッション SSII, 次の30年への期待 2024.6.12 鷲見 和彦(青山学院大学)
SSII2024 第30回 画像センシングシンポジウム 30年を振り返って • 1991: 画像解析ハンドブック(2004年改訂) • 高木幹雄ほか編著、東京大学出版会 •
リモートセンシングからロボットビジョン・人物解析ま での総合的な技術の総括 • 1994: パターン認識・理解の新たな展開 • 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 馬場口委員長指示で電子情報積信学会誌に寄稿 • 内田誠一,佐藤真一,佐藤洋一,日浦慎作,福井和広,鷲見和彦 • 2010年からの10年間に挑戦すべき課題を議論 3 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 画像解析ハンドブック(第2版)当時のテーマ • リモートセンシングからロボットビジョン・人 物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開
• 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 幹事団有志により電子情報積信学会誌に寄 稿 • 2010年からの10年間に挑戦すべき課題を議論 (第2版の装丁とカラー図表ページ) 人物姿勢推定や人体モデル・パーツ セグメンテーションなど,今も研究 されている技術が掲載されている → 研究対象の大きな変化はない 4 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf 5 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 Action Recognition Dense Image Captioning Salient Object Recognition Depth camera, LiDAR, 4DRadar, etc. Video based Future Prediction Medical Computer Aided Diagnosis OCR in the wild Visual Question and Answering 予想の8割の課題で,現在ベンチ マークが行われるほど発展した! 6 Kazuhio Sumi, SSII2024 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf
SSII2024 第30回 画像センシングシンポジウム 予想超え: Vision & Language • Visual Q&A
(VQA)では,Yes/No ではなく, より日常的な QA が可能になった • Vision から得られる特徴表現と,Language から得られる特徴表現を,おなじ空間にマッピ ングできた(例:CLIP) • Large Language Model が Multimedia 化さ れ VL タスクを解いた(例:GPT 4o) 8 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 9 Kazuhio Sumi,
SSII2024 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 10 Kazuhio Sumi,
SSII2024 この写真には、いくつかの要素が映っています。以下に、一つ一つの 要素を説明します。 車: 写真の中心には、青いスポーツカー(おそらくロータス エリー ゼ)が見えます。車は道路の角に駐車されているようです。 標識: 車の後ろには、いくつかの標識があります。一つは駐車禁止の 標識で、もう一つは進入禁止の標識のように見えます。これら の標識は、特定のエリアでの交通ルールを示しています。 自転車: 右側には緑色の自転車が駐輪されています。自転車は自転車 ラックに固定されているようです。 歩行者: 画面の左側と右側には、歩道を歩いている人々が見えます。彼 らは、日常の活動を行っているようです。 建物: 背景には、歴史的な建物や一般的な都市の建物が並んでいます。 これらの建物は、ヨーロッパの都市の典型的な建築スタイルを 反映しています。 植栽: 道路の中央分離帯には、いくつかの植栽が見られます。これら は都市の緑化の一環として設置されています。 通りの風景: 全体として、写真はヨーロッパの都市の一角を写しており、古 い建物とモダンな交通手段が共存している様子が見て取れます。 この写真は、おそらくヨーロッパの都市で撮影されたものであり、特 に駐車ルールが厳しい地域を示している可能性があります。 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 11 Kazuhio Sumi,
SSII2024 (鷲見)この写真にはどんな人物が映っていますか?人物を、互いに近く にいるグループに分けて、グループごとに説明してください。 (A) この写真には、いくつかの人物が映っています。以下に、互いに近 くにいるグループごとに説明します。 左側のグループ: 写真の左側には、二人の歩行者が見えます。一人は男 性で、黒いコートを着ており、もう一人は女性で、薄い色のコートを 着ています。二人は建物の前を歩いているようです。 右側のグループ: 写真の右側には、二人の人物が見えます。一人は男性 で、緑色の自転車の近くに立っています。彼はカジュアルな服装をし ており、何かを見ている様子です。もう一人の人物は歩道を歩いてい るように見えます。(鷲見註:もう一人はいない!) 背景の人物: 写真の奥の方、道路の向こう側に、さらに二人の人物が歩 いているのが見えます。これらの人物は遠くにいるため、詳細な特徴 はわかりませんが、歩行者として通りを歩いているようです。 (鷲見) この写真が撮影された場所を推定してみて下さい (A) この写真が撮影された場所を推定するためには、以下の要素を考慮 します: 建築様式: 背景の建物はヨーロッパ風の建築様式を持っており、特にパ リのようなフランスの都市に見られるデザインです。 道路標識: 道路標識にはフランス語で書かれたものが含まれているよう に見えます。例えば、駐車禁止の標識などです。 車のナンバープレート: 車のナンバープレートは、フランスの形式に似 ています。 周囲の環境: 都市の景観や植栽、通りの雰囲気もパリに似ています。 これらの要素を総合すると、この写真はフランスのパリで撮影された 可能性が非常に高いです。 現状:マルチメディア化された LLM は V&L 問題を人間以上の詳しさで解 くことができる.ただし,ところどこ ろ間違っていることもある. (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 今後の課題 • Multimedia LLM の登場で研究の様相は一変 • Language
LLM が達成したレベルはかなり高い • OpenSource LLM に期待が集まっている • Image / Video LLM の性能は発展途上 • 一部のベンチマーキングの性能はとても良い • In the wild な問題への対応はこれから • Language LLM 並みに発展させるには,ひと工夫必要 • LLM の開発には 膨大なリソースが必要で, 小規模組織 の研究者には手が出ず, 使いこなし方が注目されている 12 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム LLM が多数発表され, Open Source 実装も存在 13 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム Open source の LLaMA から多くの研究が派生 14 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • 省リソース: “>10Bパラメータ” を変える 15 Kazuhio
Sumi, SSII2024 https://levelup.gitconnected.com/
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • MiniGPT-4: 学習済 Vision Enc. +
LLM 16 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2304.10592
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • Knowledge distillation of LLM 17
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2402.13116
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • Structured Knowledge and LLM 18
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2312.06323
SSII2024 第30回 画像センシングシンポジウム 期待その2:個別課題の解決 19 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム 期待その2:個別課題の解決 20 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.16199 •
Efficient Fine-tuning of LLM (LLaMa-Adapter) 既存の学習済みモデルを組み合わせて、 個別の課題を fine tuning だけで解く 枠組みが提案されている
SSII2024 第30回 画像センシングシンポジウム これから取り組む人へ • やっちゃいけないこと • SoTA な研究を追いかけて改良すること •
そういう研究は山ほどあるが,ほとんど残らない • ベンチマーキングでより良い値を出すこと • ゲームには良いが,成績は塗り替えられる • やってほしいこと • 新しいベンチマークが必要になる研究 • より実用に近づいているという証拠 • 課題は現場にある • 既存の課題ではなく,実フィールドの問題を見つけよう • 実用に至るマイルストーンとしてベンチマークを設定 21 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム さいごに • 規模の大きな組織だけが LLM をリード • ネット上の大規模データと大量の計算リソース
• 同じことをやっても意味がない • 使い方を考えるのは研究者じゃなくてもできる • 認識を変えよう • 現実には解けてない問題が山ほどある • データはネット上にもなく,未整理である • 個別問題に大量の計算リソースは投入できない • だから皆さんの力が必要です.期待しています 22 Kazuhio Sumi, SSII2024