Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
監視論 ~SREと次世代MSP~
Search
Qryuu
September 13, 2020
Technology
10
4.9k
監視論 ~SREと次世代MSP~
ITシステム監視を何故行うのか
なぜ監視からオブザーバビリティーが求められるのか
次世代MSP、今後の監視エンジニアに求められる能力とは
Qryuu
September 13, 2020
Tweet
Share
More Decks by Qryuu
See All by Qryuu
監視論Ⅳ ~監視からオブザーバビリティーへの招待~
qryuu
0
340
人体モニタリングによる運動療法継続
qryuu
0
140
オブザーバビリティで理解するコンピュータサイエンス
qryuu
1
1.5k
監視とは何か ~監視エンジニアのスキルと成長~
qryuu
8
8.5k
Other Decks in Technology
See All in Technology
Wvlet: A New Flow-Style Query Language For Functional Data Modeling and Interactive Data Analysis - Trino Summit 2024
xerial
1
110
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
120
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
370
ガバメントクラウドのセキュリティ対策事例について
fujisawaryohei
0
530
宇宙ベンチャーにおける最近の情シス取り組みについて
axelmizu
0
110
Jetpack Composeで始めるServer Cache State
ogaclejapan
2
170
非機能品質を作り込むための実践アーキテクチャ
knih
3
950
社内イベント管理システムを1週間でAKSからACAに移行した話し
shingo_kawahara
0
180
ブラックフライデーで購入したPixel9で、Gemini Nanoを動かしてみた
marchin1989
1
520
サービスでLLMを採用したばっかりに振り回され続けたこの一年のあれやこれや
segavvy
2
390
AIのコンプラは何故しんどい?
shujisado
1
190
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
31k
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Producing Creativity
orderedlist
PRO
341
39k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
GraphQLとの向き合い方2022年版
quramy
44
13k
The Language of Interfaces
destraynor
154
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Transcript
監視論 ~SREと次世代MSP~ OpsJaws
自己紹介 ▪ PN:九龍真乙 ▪ Twitter: @qryuu ▪ SlideShre: https://www.slideshare.net/qryuu ▪
GitHub: https://github.com/qryuu ▪ クックパッド: https://cookpad.com/kitchen/4142562 ▪ Youtube: https://www.youtube.com/channel/UCcPidyLCfGp49pmF4Zb761Q ▪ 専門:New Relic, Zabbix, テクニカルサポート, クラウドアーキテクト ▪ 所属:OpsJAWSコアメンバー、New Relic株式会社、Zabbixユーザー会 2
セッションの目的 3
セッションの目的 ▪ 監視ツール、監視SaaSなどITシステム監視に関する ツールや仕組みについては多くのドキュメントがあります。 しかしそもそもITシステム監視そのものについてはあまり語ら れる事がありません。 ▪ 特定の監視ツールや監視サービスについてではなく ITシステム監視そのものの定義や意義、監視サービスのあるべ き未来や可観測性(オブザーバビリティー)について考察しま
す。 ▪ マイクロサービスやSREといった変化のなかでMSP事業者や モニタリングエンジニアの生存戦略ついてかんがえます。 4
セッションの目的 ▪ ITシステム監視とは何か ▪ 監視エンジニアの未来 ▪ SREとアウトソーシングの関係 5
ITシステム監視とは 6
ITシステム監視とは ▪ プロセス監視 ▪ 機器監視 ▪ アプリケーション性能監視 ▪ リアルユーザーモニタリング ▪
ログ監視 ▪ 可観測性(オブザーバビリティー) 7
ITシステム監視とは ▪ システム監視の目的はシステムの安定稼働 ▪ システム稼働効率の最適化 ▪ アプリケーションの改善 8
監視システムの4要素 9
監視システムの4要素 ▪ 収集 ▪ 判定 ▪ 通知 ▪ 分析 ▪
単一のソフトやサービスによって全てを実現する場合もあれば、 複数のソフトウェアやサービスを組み合わせて機能を満たす場 合もあります。 10
収集 ▪ 対象システムやセンサー、ネットワーク機器等からデータを集 める。 ▪ CPU使用率やメモリ使用率、ディスク情報やネットワーク負荷 ログ情報や環境データの収集を行う。 11
収集 ▪ 標準的なプロトコルやAPIにより監視ツールなどにデータ提供 を行う対象システム ▪ 監視システム独自Agentによって対象システムからデータ収集 を行う ▪ 対象システム自身の状態確認コマンド、統計コマンドにより出 力される情報をスクリプトやAgent等により収集する場合もあ
る。 12
判定 ▪ 収集により集められたデータに対して、正常・障害/ノーマ ル・アラートなどの判定を行う。 ▪ 判定では、「イコール/ノットイコール」や「含む/含まない」、 「以上/以下(超過/未満)」 などにより、数値判定、文字列判定を行う。 ▪ 2015年ごろから、近似計算による将来値予測を行いこの予測
値に対する判定を行うシステムも登場している。 ▪ 複数の条件やAIの利用など判定の高度化も行われている 13
通知 ▪ 通知先は人間とは限らない ▪ システムに通知する=自動復旧・自律制御 ▪ 何のために通知するのか=通知するけど静観は意味が無い ▪ 通知した後のフローを意識して通知条件を設計する ▪
通知を受けた人物が「決断」「操作」する必要がある場合に 通知する 14
分析 ▪ ソース – 収集されたデータ – 判定の頻度 ▪ 目的 –
現状把握 – 将来予測 ▪ 効果 – ボトルネックの判断 – ボトルネックの移動予測 – コスト最適化 15
分析 ▪ 分析は立案である ▪ 監視は終端ではなく先端 ▪ 分析に必要な能力は勘ではなく知識 16
オブザーバビリティー ▪ 現象ではなく、その原因を探る ▪ 収集対象を増やし分析をリアルタイムにより深化させる。 ▪ 監視:異常検知 ▪ オブザーバビリティー:原因究明 17
なぜ可視化するのか 18
なぜ可視化するのか ▪ 監視対象データは時系列データ ▪ 瞬間値ではなく、値の推移が意味を持つ ▪ 数値表を眺めるのではなくグラフ化することで変曲点が把握で きる。 ▪ ボトルネック分析やシステム負荷ではデータ同士の相関やス
ケール変更が重要 ▪ データアナリストやデータサイエンティストに繋がる経験 19
MSPという業態 20
MSPという業態 ▪ MSP(Managed Service Provider) ▪ MSP(Monitoring Service Provider) ▪
MSPは本来運用サービスを提供するものであるが、実体として は監視サービスを提供し、サービス運用についてはエンドユー ザの指示に従うような業態となっている。 21
MSPという業態 ▪ AWSがMSPパートナープログラムとして、「Next Generation MSP」としてパートナー要件を定義 ▪ MSPに高度なナレッジ、システムの自動化、DevOpsの実現な どが求められた。 22
MSPという業態 ▪ DevOps=開発・SIer機能 ▪ ナレッジ提供=コンサルティング機能 ▪ 24-365=カスタマーサポート機能 23
SREの役割 24
SREの役割 ▪ SRE(Site Reliability Engineering) ▪ 運用のためのコードを書く ▪ 開発者が運用を行うという思想 ▪
SREとはITサービス企業自身の役割でありMSPのようなアウト ソーサーとして提供する事に向いたロールでは無い。 ▪ 少なくとも業態や関係性を変える必要がある 25
監視の役割は開発ではない 26
監視エンジニアとしての価値 ▪ SREが登場した当時DevOpsの文脈が強くOpsやSREも開発を 行うという総員コーダーのような雰囲気が強くなった。 ▪ OpsやSREの本領はパフォーマンスの分析でありそこで求めら れる能力は統計やログ解析、アプリケーション解析である。 ▪ 大規模SaaSではSREとソフトウェアデペロッパーは別のチー ム
▪ SREやOpsに求められる役割は根拠となるデータを示し、設計 フェイズに対してフィードバックを行う事 27
知識と技術 28
知識と技術 論理 センス 知識 技術 学者 職人 コンピュータサイエンス プログラミング Opsの特性
Devの特性 29
知識と技術 ▪ どちらが優れているではなく人類が進歩するために必要な両輪 ▪ 天才的とされる人材は1人で両方のスキルを兼ね備える場合も あるが、組織設計においては本来両方が補完関係にあるべき 30
設計と監視 Opsサンドイッチ 31
設計と監視 Opsサンドイッチ 32
設計と監視 Opsサンドイッチ ▪ インフラモニタリング – →スレッドプログラミングの偏り・メモリリーク検知 ▪ ミドルウェアモニタリング – コネクションプーリング実装の不備検知
▪ アプリケーションパフォーマンスモニタリング – 非効率な再帰呼び出し実装検知 – cache実装の不備検知 ▪ 値から意味を読み取り設計へとフィードバックすることがこれ からのMSP事業者やSREに求められる 33
MSPがこの先生きのこるためには 34
MSPがこの先生きのこるためには ▪ MSP事業者やSREは読影能力や設計能力を高める事が重 要である。 ▪ 読影能力=分析 ▪ 分析で必要となるのはコンピュータサイエンスの知識 35
MSPやSREを活かす開発体制 ▪ 分析に基づくフィードバックを適切にソフトウェアの実装に反 映する開発体制が必要 ▪ フィードバックを反映しその効果を確認するまでの期間は1週 間以内長くとも1ヶ月以内が理想的 ▪ ショートウォーターフォール、アジャイルモデル 36
©2008–20 New Relic, Inc. All rights reserved Webinars in September
Your Name Here September 2, 2020
©2008–20 New Relic, Inc. All rights reserved New Relic はじめの一歩
(概要編) 38 全世界で17,000社、日本国内でも既に数百社が導入・活用しているNew Relic。本ウェビナーでは、New Relic とはいったい何なのか?どのよう なことができるのか?といった全体像を理解できる初心者向けのセッ ションです。 New Relic は、モバイルやブラウザのエンドユーザーモニタリングや、 外形監視、バックエンドのアプリケーションとインフラモニタリング など、オンプレやクラウド、コンテナからサーバレスまであらゆるシ ステム環境での性能管理を実現するプラットフォームです。できるこ とが多種多様にわたるプラットフォームであるため、New Relic で何が できるのかその全体像をまずは理解したい方に最適です。 対象:New Relic で何ができるのかまずは理解したい方 9月17日 16:00 - 17:00 New Relic University 101 : Overview Walk-through ©2008–20 New Relic, Inc. All rights reserved このウェビナーに参加する
©2008–20 New Relic, Inc. All rights reserved New Relic はじめの一歩
(ハンズオン) 39 本ウェビナーは、New Relic の全体概要は理解しているが、実際に操作 することで理解を深めたい方向けのハンズオントレーニングです。 New Relic One のコアとなる Full stack Observability の中から中核昨日 となるAPM、Infrastructure、そして Alert と Dashboard 作成についてハ ンズオントレーニングで学びます。 New Relic のテクニカルサポートエンジニアやモデレーターが、初歩的 な質問から細かい質問まで答えられる限り回答して参りますので、ざ っくばらんにお問い合わせください。 対象:New Relic を理解しているがまだ触ったことのない方 9月24日 16:00 - 18:00 New Relic University 102 : Full Stack Observability Hands-On Training ©2008–20 New Relic, Inc. All rights reserved このウェビナーに参加する
©2008–20 New Relic, Inc. All rights reserved New Relic の
Webinar 登録でもらえる 40 New Relic のウェビナーにご登録いただくと、参加の可否にかかわらず ウェビナー実施後に Nerd 御用達、ブラックでキメた New Relic Swag にご応募いただけます。在庫がなくなり次第の終了です。 Nerd Mask (限定300枚) Stay Home を IP アドレスとサブネットマスクで表現した Nerd なマス ク。そんじょそこらでは思いつかない Nerd なメッセージスタイルは、 わかる人にだけはわかるという、厄介なスタイルを表現しています。 データニャード Tシャツ (限定300枚) データナード (データ分析オタク)をもじってデータニャードと読み替え ることから生まれた New Relic 猫型データアナリスト。大量に生産され るもオフラインイベントの尽くのキャンセルで行き場を失い、そのデ ータを見通すシャープな眼差しは、飼い主を求めて虚空を見つめます 。 Nerd Mask & データニャード 注意 : 該当アイテムは予告なく変更される可能性がございます。