Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
Search
高橋かずひと
November 16, 2024
Technology
2
140
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
動画は後日アップロード予定。
関連リポジトリ:
https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample
高橋かずひと
November 16, 2024
Tweet
Share
More Decks by 高橋かずひと
See All by 高橋かずひと
【Python東海#44】Pydroid3で画像処理
kazuhitotakahashi
0
1.4k
【Unagi.py 56枚目】動物園(PINTO_model_zoo)に遊びに行こう
kazuhitotakahashi
1
1.5k
【Python東海#43】Image-Processing-Node-Editor
kazuhitotakahashi
0
990
【MLN】Visual Blocks for ML
kazuhitotakahashi
0
1.2k
【NGK2023S】 ノードエディタ形式の画像処理ツール「Image-Processing-Node-Editor」
kazuhitotakahashi
0
1.2k
【Pythonデータ分析勉強会#33】「DearPyGuiに入門しました」の続き~Image-Processing-Node-Editor~
kazuhitotakahashi
0
1.3k
【OSC2022Nagoya】DearPyGuiに入門しました / OSC2022Nagoya Introduced to DearPyGui
kazuhitotakahashi
1
1.7k
【Pythonデータ分析勉強会#32】Raspberry Piでリアルタイムな物体検出(2022年4月やったやつ)
kazuhitotakahashi
0
2k
【NGK2022S】Unity Barracuda で ニューラルネットワークの推論 / NGK2022S Unity Barracuda
kazuhitotakahashi
0
370
Other Decks in Technology
See All in Technology
私はこうやってマインドマップでテストすることを出す!
mineo_matsuya
0
280
Terraform Stacks入門 #HashiTalks
msato
0
300
Terraform CI/CD パイプラインにおける AWS CodeCommit の代替手段
hiyanger
1
180
2024年グライダー曲技世界選手権参加報告/2024 WGAC report
jscseminar
0
260
いろんなものと両立する Kaggleの向き合い方
go5paopao
2
1.1k
ノーコードデータ分析ツールで体験する時系列データ分析超入門
negi111111
0
330
mikroBus HAT を用いた簡易ベアメタル開発
tarotene
0
310
TypeScript、上達の瞬間
sadnessojisan
15
4k
リンクアンドモチベーション ソフトウェアエンジニア向け紹介資料 / Introduction to Link and Motivation for Software Engineers
lmi
4
300k
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
26
6.4k
End of Barrel Files: New Modularization Techniques with Sheriff
rainerhahnekamp
0
290
製造現場のデジタル化における課題とPLC Data to Cloudによる新しいアプローチ
hamadakoji
0
220
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
32
1.5k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
The Language of Interfaces
destraynor
154
24k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.8k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
7
570
Designing for Performance
lara
604
68k
Become a Pro
speakerdeck
PRO
25
5k
Optimizing for Happiness
mojombo
376
69k
Speed Design
sergeychernyshev
24
600
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Scaling GitHub
holman
458
140k
The Invisible Side of Design
smashingmag
297
50k
Transcript
Pycon mini 東海(15:00~15:25) 高橋 かずひと Google Colaboratory で試すVLM
Name: Who am I ? 高橋かずひと Work :画像処理系プログラマ 元組み込み屋、元IoT屋 Other:インディーゲーム
開発のお手伝いなど @Kazuhito00 @KzhtTkhs
None
AGENDA Who am I ? 【済】自己紹介 Prerequisites 前提、実行環境や 取り扱うモデルについて What
is VLM? VLMとは? Introducing some VLM models いくつかのVLMモデルの 紹介と動作例 Summary まとめ 01 02 04 05 03
02 Prerequisites 前提、実行環境や取り扱うモデルについて
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので……
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・サンプルは基本的(と思ってる)な構文のみを使用 ・上から順に実行すれば動かせるノートブックを公開 ・VLMの詳しい動作原理などは説明対象外 ・VLMを試してみたいけど、あまりお金かけずにとりあえず触ってみたい方 https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・Googleが提供するクラウドベースのJupyter Notebook環境 ※要Googleアカウント ・無料でも、ある程度のGPU実行が可能
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・無償(Pay As You Go)プランで使用できるランタイム ※もしサンプルがミスってて、無償プランで動作しなかったらコッソリ教えてください ・上記ランタイムで動作可能なVLMをご紹介
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点(言い訳など) :この分野も日進月歩なので…… ・Colaboratoryで動作するモデルを網羅した資料ではないです ・昨日動いていたものが色々な理由で動かなくなってるかも ※もし動かなかったらコッソリ教えてください…… ・「もっと良いモデルあるよ!」知っている方は皆に教えてください
03 What is VLM? VLMとは?
What is VLM? VLMとは? VLM(Vision Language Model)は、 ・テキスト情報(言語) ・視覚情報(画像や映像) を複合的に処理できるモデル
もの凄くざっくり言うと LLM(Large Language Model)に 画像を入力できるようにしたもの
What is VLM? VLMとは? VLMをイメージした 画像を生成して VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成)
※今回は扱いません
What is VLM? VLMとは? 画像では、筋肉が非常に発達した男性 が登場しており、特に腹筋が際立って います。彼のポージングと豪華な椅子、 王冠とマントの組み合わせが、力強さ と威厳を同時に演出しています。しか し、その一方で手に持っているシェイ
カーや背景のアートが全体に少しユー モラスな雰囲気を加えており、シリア スさと軽妙さが絶妙に融合したシーン になっています。 画像:マッチョのフリー写真素材(マッスルプラス)傲慢な王様マッチョ https://freephotomuscle.com/archives/photo/6527 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成
What is VLM? VLMとは? 画像のナースが持ってい るボードには「手術室」 と書かれています。 そのため、彼女は手術室 へ向かいたいと考えてい るようです。
ナースの行きたい場所は? 画像:看護師のフリー写真素材(スキマナース)ヒッチハイクする看護師 https://nurse-web.jp/photo/archives/338 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成 ・視覚質問応答(VQA) ・etc
None
画像:ぱくたそ トゲトゲのサボテンとハリネズミ https://www.pakutaso.com/20190257050post-19488.html
What is VLM? VLMとは? 画像:ぱくたそ 人のいない雪道と車の痕 https://www.pakutaso.com/20200513149post-27770.html ▪事例(GPT-4o-mini) 道路を撮影し、VLMで天気や道路状況を監視し、Slackへ通知 ※イメージです
04 Introducing some VLM models いくつかのVLMモデルの紹介と動作例
Introducing some VLM models いくつかのVLMモデルの紹介と動作例 ▪ 軽量で高速なVLM(MobileVLM-V2) ▪ 動画の認識も可能なVLM(MiniCPM-V2.6) ▪
マルチタスクを扱えるVLM (Florence-2) ▪ 日本語も使用可能なVLM (Qwen2-VL)
軽量で高速なVLM (MobileVLM-V2) ・モバイルデバイス向けVLM ・非常に高速に動作 ・モデルによってはT4 GPU でも1秒未満の処理速度 1.7B(v2):約0.7s 3B(v2) :約1s
7B(v2) :約17s ※プロンプトや画像サイズ、出力文字数によって変わるため、ご参考程度に 参考:https://github.com/Meituan-AutoML/MobileVLM
軽量で高速なVLM (MobileVLM-V2)
動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude
3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V
動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude
3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V 画像:ぱくたそ テレビゲームで遊ぶ子どもたち https://www.pakutaso.com/20190310081post-20065.html
動画の認識も可能なVLM (MiniCPM-V2.6)
動画の認識も可能なVLM (MiniCPM-V2.6) 画像:ぱくたそ 急な展開で思わず反応してしまう男女 https://www.pakutaso.com/20240245033post-50463.html
動画の認識も可能なVLM (MiniCPM-V2.6) 画像:NHKクリエイティブ・ライブラリー コアラ初来日 https://www2.nhk.or.jp/archives/movies/?id=D0002080144_00000
日本語も使用可能なVLM (Qwen2-VL) ・様々な解像度と比率の画像理解 ・ビデオ理解 ※MiniCPM-V2.6よりメモリ使用量が多いため、FPS調整やサイズ調整が必要 ・携帯電話やロボットでの動作も想定 ・多言語サポート - 英語 -
中国語 - ヨーロッパ系の言語 - 日本語 - 韓国語 - アラビア語 - ベトナム語 など 参考:https://github.com/QwenLM/Qwen2-VL
・様々な解像度と比率の画像理解 ・ビデオ理解 ・携帯電話やロボットでの動作も想定 ・多言語サポート - 英語 - 中国語 - ヨーロッパ系の言語
- 日本語 - 韓国語 - アラビア語 - ベトナム語 など 参考:https://github.com/QwenLM/Qwen2-VL 日本語も使用可能なVLM (Qwen2-VL) 画像:ぱくたそ 成子天神下交差点前 https://www.pakutaso.com/20240848233post-52002.html
日本語も使用可能なVLM (Qwen2-VL)
マルチタスクを扱えるVLM (Florence-2) ・様々な視覚タスクを同一モデルで 実行 - キャプション - 物体検出 - セグメンテーション
- OCR など(以降のページではいくつか抜粋して紹介) ・タスクによって処理速度は異なるが T4 GPUで動作可能 ・プロンプトは特定のフォーマット のため、汎用性が少し低い 参考:https://github.com/QwenLM/Qwen2-VL
マルチタスクを扱えるVLM (Florence-2) 画像:ぱくたそ 雨の都市風景、 横断歩道と歩行者 https://www.pakutaso.com/20230815222post-48102.html
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2) 画像:ぱくたそ パイクプレイスマーケットのエントランス https://www.pakutaso.com/20240617157medicleanse.html
マルチタスクを扱えるVLM (Florence-2)
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容……
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… https://zenn.dev/karaage0703/articles/5a02a0822fba8a
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… 多くのチャレンジャーが他モデル(※)を試したり プロンプトチューニングを試みるも死屍累々…… ※試行されたモデルの例 ・GPT-4o ・GPT-4o-mini ・Claude 3.5
Sonnet ・Gemini 1.5 Flash ・MobileVLM v2 ・Qwen2-VL ・heron-blip-v1 ・Molmo etc
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない
とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
Tips以下の例 ・オブジェクトの絶対位置の認識 ・複数オブジェクト間の関係理解
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない
とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
Tips 位置苦手問題については、Visual promptingなどの改善案も研究 されている ▪画像に対して、セマンティックセグメンテーションを行い 番号を割り当てて描画したものを入力画像にする Set-of-Mark Prompting Unleashes Extraordinary
Visual Grounding in GPT-4V ▪画像に対して、等間隔のグリッドとグリッド座標を 描画したものを入力画像にする Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models ▪注視して欲しい箇所がある場合、その箇所を丸や四角で 囲んだり、矢印を描画したものを入力画像にする
05 Summary まとめ
Summary まとめ まとめと言うほど大層な内容ではありませんが、、、 ・一般人も利用可能なVMLが登場し、1年以上が経過し Google Colaboratoryで動かせるモデルも増えてきた ・その中のいくつかを本トークでご紹介した ・物凄い勢いで発展してきているが、まだまだ苦手な 認識も結構ある →
興味のある方は、今回紹介したノートブックなど 上手く行くか行かないか、試してもらえると良いと思います
ご清聴ありがとう ございました