Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2025 [OS1] LLM/VLMのエッジ推論に向けて
Search
画像センシングシンポジウム
PRO
May 27, 2025
840
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2025 [OS1] LLM/VLMのエッジ推論に向けて
画像センシングシンポジウム
PRO
May 27, 2025
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
610
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1.1k
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
440
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
580
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
580
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
340
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
330
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
330
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
300
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
187
22k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Google's AI Overviews - The New Search
badams
0
1k
Practical Orchestrator
shlominoach
191
11k
How STYLIGHT went responsive
nonsquared
100
6.2k
We Have a Design System, Now What?
morganepeng
55
8.2k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
620
エンジニアに許された特別な時間の終わり
watany
107
250k
Music & Morning Musume
bryan
47
7.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Paper Plane
katiecoart
PRO
1
51k
Transcript
LLM/VLMのエッジ推論に向けて 進矢陽介(センスタイムジャパン)
軽量化の重要性 自動運転 推論時間が1秒の場合、 時速60kmの車が約17m進む → 危険 スマートフォン(RTX 5090を添えて) 2kg:重い 50万円:高い
→ 買わない・売れない RTX 5090画像引用元: https://www.youtube.com/watch?v=k82RwXqZHY8
速度・精度トレードオフ 図引用元:YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究:Speed/accuracy
trade-offs for modern convolutional object detectors [Jonathan Huang+, CVPR 2017] https://arxiv.org/abs/1611.10012 できるだけ精度を維持したまま 高速化・軽量化したい
軽量化の種類 枝刈り(刈り込み、pruning) 重要性の低い重み・ニューロン等を除去 量子化(低ビット化、quantization) 重み等の数値の重要性の低いビットを除去 分解・変換 分解・変換を介して重要性の低い要素を除去 例:低ランク近似, FFT, DCT
知識蒸留(knowledge distillation) 大きな教師モデルの出力を小さな生徒モデルが真似る 低ランク近似の図引用元: https://dustinstansbury.github.io/theclevermachine/svd-data-compression 浮動小数点数の図引用元: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html 0.395264 0.375
講演者紹介 エッジLLMハードウェアの問題 ~そして私たちに何ができるか~ 吉岡 健太郎 氏 (慶應義塾大学) 量子化手法の概要とエッジ開発における課題 亀澤 諒亮
氏 (GO株式会社) PFNにおけるSmall Language Modelの開発 鈴木 脩司 氏 (株式会社Preferred Networks/株式会社Preferred Elements)