Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
IoTと監視
Search
na-o-ys
September 11, 2019
Technology
1
610
IoTと監視
na-o-ys
September 11, 2019
Tweet
Share
More Decks by na-o-ys
See All by na-o-ys
RubyとJIT
naoys
0
130
将棋盤を画像認識したかった
naoys
0
1.4k
Rust で乗り換え案内
naoys
0
590
疎行列と Jaccard 類似度の高速計算
naoys
1
470
有理数集合の濃度
naoys
2
95
YARVの最適化について調べた
naoys
0
100
転職会議サービスのAWS移行記録
naoys
0
30
Anonymous Recursion in C++
naoys
0
390
入門AlphaGo
naoys
5
3.6k
Other Decks in Technology
See All in Technology
元インフラエンジニアに成る / Human Resources to Human Relations
bobtani
4
930
Janus
bkuhlmann
1
490
DevOpsメトリクスとアウトカムの接続にトライ!開発プロセスを通して計測できるメトリクスの活用方法
ham0215
2
240
GrafanaMeetup_AmazonManagedGrafanaのアクセス制御機能とマルチテナント環境下でのアクセス制御について
daitak
0
240
Tellus の衛星データを見てみよう #mf_fukuoka
kongmingstrap
0
210
Terraformあれやこれ/terraform-this-and-that
emiki
8
1.4k
生成AIの変革の時代に、直近1年で直面した課題とその解決策
ktc_wada
0
310
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
lycorptech_jp
PRO
5
530
競技としてのKaggle、役に立つKaggle
yu4u
3
1.8k
Delivering Millions of Messages within seconds @ Duolingo
pelelgrino
0
350
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
170
On Your Data を超えていく!
hirotomotaguchi
2
690
Featured
See All Featured
Designing with Data
zakiwarfel
96
4.8k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
9
8.3k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
6
1.5k
Music & Morning Musume
bryan
41
5.6k
For a Future-Friendly Web
brad_frost
172
9k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.6k
Automating Front-end Workflow
addyosmani
1356
200k
Atom: Resistance is Futile
akmur
259
25k
Practical Orchestrator
shlominoach
182
9.7k
Web development in the modern age
philhawksworth
202
10k
Debugging Ruby Performance
tmm1
70
11k
Transcript
IoT と監視 600株式会社 エンジニア 岡前直由
無人コンビニ600について • 無人決済冷蔵庫 ◦ クレジットカードリーダー ◦ 電子錠 ◦ RFID ◦
Android タブレット • 「半径50メートル商圏」の市場開拓を狙う ◦ 20年で10兆円規模の市場に
自己紹介 • 経歴 ◦ 大阪大学大学院 (暗号理論・符号理論専攻) ◦ 某SIer ◦ 株式会社リブセンス
▪ SRE, SWE, 機械学習エンジニア ◦ 株式会社600 ▪ 2018/9~ ▪ 主に Product Quality Manager • TypeScript, Kotlin
今日の内容 「冷蔵庫を監視する」ってどういうこと? Prometheus を用いた筐体監視事例の紹介
• OSS のシステムモニタリングツール • アーキテクチャがシンプルで運用が容易 • 機能充分なコンポーネント群と周辺ツール ◦ 可視化 ◦
アラート
Prometheus のアーキテクチャ
Prometheus × IoT の2つのポイント 1. サブコンポーネント Pushgateway の利用 2. メトリクス設計
Prometheus は Pull 型 監視対象自身がメトリクス取得用の HTTP エンドポイントを用意 し, Prometheus が定期的にスクレイピングする
Pushgateway Push 型の監視を実現するためのサブコンポーネント エッジデバイスへの Pull は難しい
メトリクス設計 最も重要な部分 • サーバー監視など一般的な用途では, 基本的なメトリクスを組 み込んだ exporter が用意されている • 「筐体が正常稼働」の条件をブレークダウン
◦ Android アプリが起動している, タブレットのバッテリーが充 分である, クレジットカードが読み込める, … ◦ Prometheusで表現できるメトリクス化
CounterとGauge Prometheusが用意しているメトリクスの型 • Counter ◦ 単調増加する値 ◦ e.g. 合計リクエスト数, エラー数
• Gauge ◦ 任意に上下する値 ◦ e.g. メモリ利用量, 温度
例1: バッテリー残量 バッテリー残量を表す Gauge メトリクス device_battery_percent
device_battery_percent{satellite_id=”xxx”} バッテリー残量を取得するクエリ
例2: Androidアプリの稼働率 Metric: アプリの累積稼働時間 (Counter) application_alive_total アプリが起動していればれば5分おきにincrementさせる
increase(application_alive_total{satellite_id="xxx"}[2w]) / (14 * 24 * 60 / 5) 直近2週間の稼働率を取得するクエリ
例3: クレジットカード読み取り成功率 Metric: 累積成功数/失敗数 (Counter) user_cardswipe_success_total user_cardswipe_failure_total
increase(user_card_swipe_success_total{satellite_id="xxx"}[3d]) / ( increase(user_card_swipe_success_total{satellite_id="xxx"}[3d]) + increase(user_card_swipe_failure_total{satellite_id="xxx"}[3d]) ) 3dあたりのクレジットカード読み取り成功率を取得するクエリ
筐体の性能評価指標 シンプルなメトリクスから多くの指標が表現可能 • 故障回数 • 平均故障間隔 (MTBF) • 平均修理時間 (MTTR)
• 故障率 • ...
ダッシュボード例
IoT監視とサーバー監視 同じ? • モニタリングツール導入 • グラフ化・ダッシュボード化 • アラート定義 • オンコール対応
運用はけっこう違う • Web サーバーが1台落ちてもサービス影響無い/小さい ◦ 冗長構成 • IoT エッジデバイスが1つ落ちると即サービス影響 ◦
冗長化が難しい ◦ 部品の品質を高めて故障率を下げるしかない
品質向上 監視データをもとに, • 故障原因や頻度を分析 • 解決すべき課題を優先度付け • 日々改善
がんばっている
おわりに • 半径50メートル商圏の先行プレイヤーとして! • 週休3日、待遇良いです! • (幸か不幸か)エンジニアリング課題が山積みです 600で一緒にIoTしませんか