Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
IoTと監視
Search
na-o-ys
September 11, 2019
Technology
1
710
IoTと監視
na-o-ys
September 11, 2019
Tweet
Share
More Decks by na-o-ys
See All by na-o-ys
RubyとJIT
naoys
0
140
将棋盤を画像認識したかった
naoys
0
1.5k
Rust で乗り換え案内
naoys
0
610
疎行列と Jaccard 類似度の高速計算
naoys
1
560
有理数集合の濃度
naoys
2
110
YARVの最適化について調べた
naoys
0
110
転職会議サービスのAWS移行記録
naoys
0
51
Anonymous Recursion in C++
naoys
0
400
入門AlphaGo
naoys
5
3.7k
Other Decks in Technology
See All in Technology
レンジャーシステムズ | 会社紹介(採用ピッチ)
rssytems
0
150
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
480
ずっと昔に Star をつけたはずの思い出せない GitHub リポジトリを見つけたい!
rokuosan
0
150
ブラックフライデーで購入したPixel9で、Gemini Nanoを動かしてみた
marchin1989
1
520
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
280
Jetpack Composeで始めるServer Cache State
ogaclejapan
2
170
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
2
260
MLOps の現場から
asei
6
640
生成AIをより賢く エンジニアのための RAG入門 - Oracle AI Jam Session #20
kutsushitaneko
4
220
Postman と API セキュリティ / Postman and API Security
yokawasa
0
200
統計データで2024年の クラウド・インフラ動向を眺める
ysknsid25
2
840
生成AIのガバナンスの全体像と現実解
fnifni
1
180
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Code Review Best Practice
trishagee
65
17k
Producing Creativity
orderedlist
PRO
341
39k
Automating Front-end Workflow
addyosmani
1366
200k
The Cost Of JavaScript in 2023
addyosmani
45
7k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Transcript
IoT と監視 600株式会社 エンジニア 岡前直由
無人コンビニ600について • 無人決済冷蔵庫 ◦ クレジットカードリーダー ◦ 電子錠 ◦ RFID ◦
Android タブレット • 「半径50メートル商圏」の市場開拓を狙う ◦ 20年で10兆円規模の市場に
自己紹介 • 経歴 ◦ 大阪大学大学院 (暗号理論・符号理論専攻) ◦ 某SIer ◦ 株式会社リブセンス
▪ SRE, SWE, 機械学習エンジニア ◦ 株式会社600 ▪ 2018/9~ ▪ 主に Product Quality Manager • TypeScript, Kotlin
今日の内容 「冷蔵庫を監視する」ってどういうこと? Prometheus を用いた筐体監視事例の紹介
• OSS のシステムモニタリングツール • アーキテクチャがシンプルで運用が容易 • 機能充分なコンポーネント群と周辺ツール ◦ 可視化 ◦
アラート
Prometheus のアーキテクチャ
Prometheus × IoT の2つのポイント 1. サブコンポーネント Pushgateway の利用 2. メトリクス設計
Prometheus は Pull 型 監視対象自身がメトリクス取得用の HTTP エンドポイントを用意 し, Prometheus が定期的にスクレイピングする
Pushgateway Push 型の監視を実現するためのサブコンポーネント エッジデバイスへの Pull は難しい
メトリクス設計 最も重要な部分 • サーバー監視など一般的な用途では, 基本的なメトリクスを組 み込んだ exporter が用意されている • 「筐体が正常稼働」の条件をブレークダウン
◦ Android アプリが起動している, タブレットのバッテリーが充 分である, クレジットカードが読み込める, … ◦ Prometheusで表現できるメトリクス化
CounterとGauge Prometheusが用意しているメトリクスの型 • Counter ◦ 単調増加する値 ◦ e.g. 合計リクエスト数, エラー数
• Gauge ◦ 任意に上下する値 ◦ e.g. メモリ利用量, 温度
例1: バッテリー残量 バッテリー残量を表す Gauge メトリクス device_battery_percent
device_battery_percent{satellite_id=”xxx”} バッテリー残量を取得するクエリ
例2: Androidアプリの稼働率 Metric: アプリの累積稼働時間 (Counter) application_alive_total アプリが起動していればれば5分おきにincrementさせる
increase(application_alive_total{satellite_id="xxx"}[2w]) / (14 * 24 * 60 / 5) 直近2週間の稼働率を取得するクエリ
例3: クレジットカード読み取り成功率 Metric: 累積成功数/失敗数 (Counter) user_cardswipe_success_total user_cardswipe_failure_total
increase(user_card_swipe_success_total{satellite_id="xxx"}[3d]) / ( increase(user_card_swipe_success_total{satellite_id="xxx"}[3d]) + increase(user_card_swipe_failure_total{satellite_id="xxx"}[3d]) ) 3dあたりのクレジットカード読み取り成功率を取得するクエリ
筐体の性能評価指標 シンプルなメトリクスから多くの指標が表現可能 • 故障回数 • 平均故障間隔 (MTBF) • 平均修理時間 (MTTR)
• 故障率 • ...
ダッシュボード例
IoT監視とサーバー監視 同じ? • モニタリングツール導入 • グラフ化・ダッシュボード化 • アラート定義 • オンコール対応
運用はけっこう違う • Web サーバーが1台落ちてもサービス影響無い/小さい ◦ 冗長構成 • IoT エッジデバイスが1つ落ちると即サービス影響 ◦
冗長化が難しい ◦ 部品の品質を高めて故障率を下げるしかない
品質向上 監視データをもとに, • 故障原因や頻度を分析 • 解決すべき課題を優先度付け • 日々改善
がんばっている
おわりに • 半径50メートル商圏の先行プレイヤーとして! • 週休3日、待遇良いです! • (幸か不幸か)エンジニアリング課題が山積みです 600で一緒にIoTしませんか