Mambaで物体検出 完全に理解した
by
Reiki Shirasawa
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
次世代のアーキテクチャ? Mambaで物体検出 完全に理解した Reiki Shirasawa エンジニア達の「完全に理解した」Talk #67 2025年7 月 29 日
Slide 2
Slide 2 text
自己 紹介 株式会社TechSword 製造領域の ノーコードAIプラットフォーム - エッジAI - 物体検出AI Reiki Shirasawa @reikishirasawa
Slide 3
Slide 3 text
今 日 話す内容 - ふんわりした Mambaって何?なんで 生 まれたの? - ふんわりした Mambaの画像認識(物体検出)分野への適 用 事例
Slide 4
Slide 4 text
世はTransformer時代 主要な 大 規模 言 語モデルは Transformer がベースになっている
Slide 5
Slide 5 text
画像認識の分野でも - DETR( 2 0 2 0 ) Transformer × 物体検出の先駆け - Swin Transformer(2021) 軽量と 高 精度を両 立 したい - SAM(2023) ゼロショットでセグメンテーション
Slide 6
Slide 6 text
アーキテクチャの変遷 CNN Transformer ?
Slide 7
Slide 7 text
Transformerの課題 計算量 大 きくなりがち , はトークン 長 に関連 の計算が発 生 してしまう Q K N O(N2) Attention(Q, K, V) = softmax( QKT dk )V
Slide 8
Slide 8 text
もっと効率的に! でっかいコンテキスト 入 れたい
Slide 9
Slide 9 text
Mamba
Slide 10
Slide 10 text
ここがすごいぞMamba Mamba( 2 0 2 3 ) - 計算量が線形 にスケール - 同サイズのTransformerの5倍速 O(N)
Slide 11
Slide 11 text
Mambaってどんなやつ? SSM(構造化状態空間モデル)を発展させたもの
Slide 12
Slide 12 text
SSMってどんなやつ? SSMの基本式 ht = ¯ Aht−1 + ¯ Bxt yt = Cht 入力 とひとつ前の状態から 出 力 を決める
Slide 13
Slide 13 text
SSMの課題 必要な情報を選択する 力 が弱い Transformerの強みだった → 入力 の重要度がわからず全てフラットに 見 てしまう
Slide 14
Slide 14 text
Mambaの概要 入力 に応じてパラメータを変化させ どのくらい状態に反映させるかを決定 → 重要な部分に注 目 できない弱点を克服! 出典:https://arxiv.org/pdf/2312.00752
Slide 15
Slide 15 text
LLMにもMamba Codestral Mamba( 2 0 2 4 ) Mistral AI - より 長 いコンテキスト 長 - より速い応答時間 https://mistral.ai/news/codestral-mamba
Slide 16
Slide 16 text
画像認識にもMamba Mamba YOLO( 2 0 2 4 ) - Mambaで物体検出してみた - 画像の局所特徴を捉える 工 夫 - COCOデータセットでSOTA 出典:https://arxiv.org/pdf/2406.05835
Slide 17
Slide 17 text
物体検出にもMamba MambaNeXt-YOLO( 2 0 2 5 ) - CNNとのハイブリッド - CNN:局所特徴得意 - Mamba: 長 距離依存得意 - リアルタイム ・ 低リソースな 環境で活躍するぞ! 出典:https://arxiv.org/pdf/2506.03654
Slide 18
Slide 18 text
まとめ - Mamba が画像認識(物体検出)の分野でも注 目 - これから普及が進んでいったら 面白 いね