20250709_MacStudioとLlama-4Maverickでローカル画像認識

Mac Studio 512GB x Llama-4 maverickでローカル画像認識 2025/7/9 ⼤城信晃

ChatGPT-4Visionの頃のこちらの論⽂ • 2023年10⽉ごろに MSから出た検証論⽂ • 今回はそれをローカルLLMでどれくらい再現できるか試してみたいと思います
( 抜粋しつつ検証 ) • https://arxiv.org/abs/2309.17421

Mac Studio 512GB x Llama-4 maveric

LM Studio上でLlama-4を動かして画像とプロンプトをセットに⼊れて性能検証

トマト個数判定 (△) 初回は５個でNG リテイクさせると６個で正解

ID認識(◦) (たまにミス)

図形類推(◎) (ノーヒント⼀発なので4Vより良い)

リンゴ個数判定 (△) (リテイクで正解)

ポイント判定(◦)

アナログメーター判定(×) (one-shotもNG)

料理判定(◦)(検索なし)

⾻折判定(◦)

ドラレコ判定(◎)

⾷物連鎖判定(◦)

プロファイリング(△)

⽂字判定(◦)

⼿書き⽂字判定(◦)

⼿順判定(◦)

アスキーアート判定(×)

表情認識(◦)

間違い探し(△)

ヘルメット検出(◎)

バスケット判定(△)

事故⾞レポート(◦)

家族認識(◦) (リンダは読み間違え)

ロボット視点(△) (リビングルームはどこ？ )

まとめ • カウント系はやや弱い印象 • 図形判定やドラレコ認識などはGPT-4Vよりも良い結果 • 全体として、Llama-4 MavericならGPT-4Vと遜⾊のないレベル ->
ローカルLLMでガンガン画像解析ができますね・・！！

Enjoy..!!

20250709_MacStudioとLlama-4Maverickでローカル画像認識

20250709_MacStudioとLlama-4Maverickでローカル画像認識

NobuakiOshiro PRO

More Decks by NobuakiOshiro

Other Decks in Technology

Featured

Transcript

Mac Studio 512GB x Llama-4 maverickでローカル画像認識 2025/7/9 ⼤城信晃

ChatGPT-4Visionの頃のこちらの論⽂ • 2023年10⽉ごろに MSから出た検証論⽂ • 今回はそれをローカルLLMでどれくらい再現できるか試してみたいと思います

Mac Studio 512GB x Llama-4 maveric

LM Studio上でLlama-4を動かして画像とプロンプトをセットに⼊れて性能検証

トマト個数判定 (△) 初回は５個でNG リテイクさせると６個で正解

ID認識(◦) (たまにミス)

図形類推(◎) (ノーヒント⼀発なので4Vより良い)

リンゴ個数判定 (△) (リテイクで正解)

ポイント判定(◦)

アナログメーター判定(×) (one-shotもNG)

料理判定(◦)(検索なし)

⾻折判定(◦)

ドラレコ判定(◎)

⾷物連鎖判定(◦)

プロファイリング(△)

⽂字判定(◦)

⼿書き⽂字判定(◦)

⼿順判定(◦)

アスキーアート判定(×)

表情認識(◦)

間違い探し(△)

ヘルメット検出(◎)

バスケット判定(△)

事故⾞レポート(◦)

家族認識(◦) (リンダは読み間違え)

ロボット視点(△) (リビングルームはどこ？ )

まとめ • カウント系はやや弱い印象 • 図形判定やドラレコ認識などはGPT-4Vよりも良い結果 • 全体として、Llama-4 MavericならGPT-4Vと遜⾊のないレベル ->

Enjoy..!!