Mambaで物体検出 完全に理解した
by
Reiki Shirasawa
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
次世代のアーキテクチャ? Mambaで物体検出 完全に理解した Reiki Shirasawa エンジニア達の「完全に理解した」Talk #67 2025年7 月 29 日
Slide 2
Slide 2 text
自己 紹介 株式会社TechSword 製造領域の ノーコードAIプラットフォーム - エッジAI - 物体検出AI Reiki Shirasawa @reikishirasawa
Slide 3
Slide 3 text
今 日 話す内容 - ふんわりした Mambaって何?なんで 生 まれたの? - ふんわりした Mambaの画像認識(物体検出)分野への適 用 事例
Slide 4
Slide 4 text
世はTransformer時代 主要な 大 規模 言 語モデルは Transformer がベースになっている
Slide 5
Slide 5 text
画像認識の分野でも - DETR( 2 0 2 0 ) Transformer × 物体検出の先駆け - Swin Transformer(2021) 軽量と 高 精度を両 立 したい - SAM(2023) ゼロショットでセグメンテーション
Slide 6
Slide 6 text
アーキテクチャの変遷 CNN Transformer ?
Slide 7
Slide 7 text
Transformerの課題 計算量 大 きくなりがち , はトークン 長 に関連 の計算が発 生 してしまう Q K N O(N2) Attention(Q, K, V) = softmax( QKT dk )V
Slide 8
Slide 8 text
もっと効率的に! でっかいコンテキスト 入 れたい
Slide 9
Slide 9 text
Mamba
Slide 10
Slide 10 text
ここがすごいぞMamba Mamba( 2 0 2 3 ) - 計算量が線形 にスケール - 同サイズのTransformerの5倍速 O(N)
Slide 11
Slide 11 text
Mambaってどんなやつ? SSM(構造化状態空間モデル)を発展させたもの
Slide 12
Slide 12 text
SSMってどんなやつ? SSMの基本式 ht = ¯ Aht−1 + ¯ Bxt yt = Cht 入力 とひとつ前の状態から 出 力 を決める
Slide 13
Slide 13 text
SSMの課題 必要な情報を選択する 力 が弱い Transformerの強みだった → 入力 の重要度がわからず全てフラットに 見 てしまう
Slide 14
Slide 14 text
Mambaの概要 入力 に応じてパラメータを変化させ どのくらい状態に反映させるかを決定 → 重要な部分に注 目 できない弱点を克服! 出典:https://arxiv.org/pdf/2312.00752
Slide 15
Slide 15 text
LLMにもMamba Codestral Mamba( 2 0 2 4 ) Mistral AI - より 長 いコンテキスト 長 - より速い応答時間 https://mistral.ai/news/codestral-mamba
Slide 16
Slide 16 text
画像認識にもMamba Mamba YOLO( 2 0 2 4 ) - Mambaで物体検出してみた - 画像の局所特徴を捉える 工 夫 - COCOデータセットでSOTA 出典:https://arxiv.org/pdf/2406.05835
Slide 17
Slide 17 text
物体検出にもMamba MambaNeXt-YOLO( 2 0 2 5 ) - CNNとのハイブリッド - CNN:局所特徴得意 - Mamba: 長 距離依存得意 - リアルタイム ・ 低リソースな 環境で活躍するぞ! 出典:https://arxiv.org/pdf/2506.03654
Slide 18
Slide 18 text
まとめ - Mamba が画像認識(物体検出)の分野でも注 目 - これから普及が進んでいったら 面白 いね