Mambaで物体検出完全に理解した

by Reiki Shirasawa

Slide 1

Slide 1 text

次世代のアーキテクチャ？ Mambaで物体検出完全に理解した Reiki Shirasawa エンジニア達の「完全に理解した」Talk 　 #67 2025年7 月 29 日

Slide 2

Slide 2 text

自己紹介株式会社TechSword 製造領域のノーコードAIプラットフォーム - エッジAI - 物体検出AI Reiki Shirasawa @reikishirasawa

Slide 3

Slide 3 text

今日話す内容 - ふんわりした Mambaって何？なんで生まれたの？ - ふんわりした Mambaの画像認識(物体検出)分野への適用事例

Slide 4

Slide 4 text

世はTransformer時代主要な大規模言語モデルは Transformer がベースになっている

Slide 5

Slide 5 text

画像認識の分野でも - DETR( 2 0 2 0 ) Transformer × 物体検出の先駆け - Swin Transformer(2021) 軽量と高精度を両立したい - SAM(2023) ゼロショットでセグメンテーション

Slide 6

Slide 6 text

アーキテクチャの変遷 CNN Transformer ?

Slide 7

Slide 7 text

Transformerの課題計算量大きくなりがち , はトークン長に関連の計算が発生してしまう Q K N O(N2) Attention(Q, K, V) = softmax( QKT dk )V

Slide 8

Slide 8 text

もっと効率的に！でっかいコンテキスト入れたい

Slide 9

Slide 9 text

Mamba

Slide 10

Slide 10 text

ここがすごいぞMamba Mamba( 2 0 2 3 ) - 計算量が線形にスケール - 同サイズのTransformerの5倍速 O(N)

Slide 11

Slide 11 text

Mambaってどんなやつ？ SSM(構造化状態空間モデル)を発展させたもの

Slide 12

Slide 12 text

SSMってどんなやつ？ SSMの基本式 ht = ¯ Aht−1 + ¯ Bxt yt = Cht 入力とひとつ前の状態から出力を決める

Slide 13

Slide 13 text

SSMの課題必要な情報を選択する力が弱い Transformerの強みだった → 入力の重要度がわからず全てフラットに見てしまう

Slide 14

Slide 14 text

Mambaの概要入力に応じてパラメータを変化させどのくらい状態に反映させるかを決定 → 重要な部分に注目できない弱点を克服！出典：https://arxiv.org/pdf/2312.00752

Slide 15

Slide 15 text

LLMにもMamba Codestral Mamba( 2 0 2 4 ) Mistral AI - より長いコンテキスト長 - より速い応答時間 https://mistral.ai/news/codestral-mamba

Slide 16

Slide 16 text

画像認識にもMamba Mamba YOLO( 2 0 2 4 ) - Mambaで物体検出してみた - 画像の局所特徴を捉える工夫 - COCOデータセットでSOTA 出典：https://arxiv.org/pdf/2406.05835

Slide 17

Slide 17 text

物体検出にもMamba MambaNeXt-YOLO( 2 0 2 5 ) - CNNとのハイブリッド - CNN：局所特徴得意 - Mamba：長距離依存得意 - リアルタイム・低リソースな環境で活躍するぞ！出典：https://arxiv.org/pdf/2506.03654

Slide 18

Slide 18 text

まとめ - Mamba が画像認識(物体検出)の分野でも注目 - これから普及が進んでいったら面白いね