入門入門監視 / reading-practical-monitoring

⼊⾨⼊⾨監視しゃないのえるてぃー⽤ => 外部公開⽤に編集したもの

ࣗݾ঺հ • ίωώτגࣜձࣾ • αʔόʔαΠυΤϯδχΞ • ओʹCakePHPͳͲ

─室長！  我々は、老害だったのかもしれませんよ！ (金城 2019.01@CTO 1on1)

Part 0

ΧϯγϜζΧγΫωʁ • ʮ࠷ॳʹर͏ਓʯͱ͔  ʮຊରԠ͢Δਓʯͱ͔ͷภΓ • ΋͠ʮࣗ෼͕શ͘஌Βͳ͍ػೳʯͰ  ίέΒΕͨΒɺ٧Ή͔΋͠Εͳ͍ • શһ͕΋ͬͱΰϦΰϦʹ  Ξϥʔτरͬͯ͘ΕͨΒ޾ͤͩΑͳʙʂ

ʮೖ໳ ؂ࢹʯ • ͪΐʙͲʮ؂ࢹʂߟ͑ͳ͚Ε͹ʂʂʯͬͯ  ײ͍ͯͨ࣌͡ظʹʮདྷ݄ൃചʯɻ • ֓ཁͱ͔ಡΜͰͳ͍͚Ͳɺ  λΠτϧʹऒ͔Εͨͷͱɺ༁ऀ͕৴པͰ͖ͦ ͏ͳͷͱͰδϟέങ͍  (ձ͕ࣾങͬͯ͘Εͨɺײँʙ)

PartⅠ

7ߦ·ͱΊ ※ࣾ಺ڞ༗ࡁΈͷʮಡॻϝϞʯΛࢀরʂ

PartⅠ  「⼊⾨監視」、どんな本？〜fin〜

Part Ⅱ

本に書いてあることは、  すべて本に書いてあるので

本に書いてないことを  話しましょうよ！！！

☓読めばわかること  ◦読んで考えさせられたこと ◦読んで感じたことをば。

ざっと、おさらい。  • 本書のテーマともいうべきポイントを。 • すなわち、  「こう思ったッス」を話すにあたっての、  「お気に⼊りポイント」の共有です。

おさらい① • 「サービスが動いている」かを監視する。 • メトリクスは、  ユーザーにとって  「どういう挙動を引き起こしているか」を  説明できる項⽬を選定する

おさらい② • アラートは  「誰かを叩き起こす、要アクション」  なもの。 • ⇔「あとでやれば」なものは、  アラートと⾔わない。

おさらい③ • アラートは「⾒直し、育てる」もの。 • 「⾒たけどアクションしなかったもの」は、失格！リストラ！外しましょう。

おさらい④ • 監視は「スキル」。 • 「役割」にしない！！！

(おさらいココまで)

我々の「監視」は  どうだろうか・・・？

⼤反省ですよ！！ • 我々の作っているのは  「アラート」ではなかったのかもしれない • 「役割」にはしていない。つもり。  が、「スキル」=「修得可能なモノ」として  ⾒えていなかったかもしれない

΁ʔ͠Όͱ؂ࢹʙࢲͷೖࣾ࣌ʙ • ࢲͷೖ͔ࣾ࣌ΒSentry͸ೖͬͯΔ • AWS CloudWatch΋ઃఆ͞Ε͍ͯΔ • CTO͕શମతʹݟͯͨ  -> ࢲ͕ೖ͔ࣾͯ͠Βউखʹπʔϧͷ࢖͍ํΛ
͍֮͑ͯͬͨ

΁ʔ͠Όͱ؂ࢹʙΤϯδχΞ૿Ճʙ • (αʔόʔαΠυ)ΤϯδχΞ͕૿͑Δ౓ʹ  ಉ͡Α͏ͳड͚ೖΕͷྲྀΕΛ౿ऻ • SlackʹʮԿ͔͕ඈΜͰ͘ΔʯΑ͏ʹͯ͠ɺ  ඈΜͰ͖ͨΒݟΔ • SentryͷIssueΛؾ͕޲͍ͨͱ͖ʹݟΔ

΁ʔ͠Όͱ؂ࢹʙ؂ࢹͷڧԽʙ • ϨϙδτϦ΋ਓ΋૿͑ͨͷͰɺ  ʮSlackʹ௨஌͕དྷͨΒ൓Ԡ͠Α͏ʯ  ͱ͍͏ͷΛ໌ݴͨ͠ • ͜Ε·Ͱ΋SentryͷΠϕϯτ਺Λ௥͍͕ͬͯͨ  ʮνʔϜશମͰҙࣝ͠Α͏ʯ  ͱ͍͏࿩Λͨ͠

＿⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈＿＞＜＞実質的に、やり⽅変わってないじゃんね＜＞＜￣Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^￣

͕͜͜ʮมΘͬͯͳ͍ʯɻ • 2,3ਓͰશͯΛઃܭɾ࣮૷͍ͯͨ࣌͠୅ͷ  ʮશ෦๊͖͠Ίͯʂʯܕͷ؂ࢹ • ͳΜͱͳ͘ͷ໨ඪͱͯ͠ͷ  ʮΤϥʔΛݮΒͦ͏ʂʯͱ͍͏ਫ਼ਆ࿦ • ܅͕ٽ͘ͷͳΒ܅ͷྦ·Ͱา͍͍ͯ͘νʔϜ  ܅͕ٽ͘·ͰԥΔͷΛ΍Ίͳ͍ঢ়گ

─室長！  我々は、老害(ry

現状に即し、  &  これからに備えねば。

そのために  「今」の姿を分析してみる。

我(々)が⾒落としていたもの • 監視なんて誰でもできる！  俺だって教わってなかったさ！！ • 不具合とかエラーなんて出すな！  それがゼロなら、障害もほとんど起きねぇ！

我(々)の思い上がりを  正すべき、3つの理由

ᶃαʔϏε͸  ʮෳࡶʯʹͳ͍ͬͯΔ • ෳࡶ͞ͱ͸ • ߏ੒ύʔπͷଟ͞ • શମʹର͢Δɺݸʑਓͷʮະ஌ʯྖҬͷ޿ ͞

ᶃαʔϏε͸  ʮෳࡶʯʹͳ͍ͬͯΔ • αʔϏε͕૿͑ͨ͠ɺେ͖͘ͳͬͨ͠ • ػೳ΋૿͑ͨ͠ • ΞʔΩςΫνϟ΋มΘͬͨ͠ • ਓ΋૿͑ͨʂ 
ͦͯ͠ɺਓͦΕͧΕʮઐ໳Խʯ͍ͯ͠Δ͠

ᶄϝϯόʔ΋૿͑ͨ • ো֐ͷʮݱ৔ʯʹग़ಈ͢Δ֬཰͕ݮ͍ͬͯΔ • ҎલͷΑ͏ʹ  “࣮ࡍʹରԠ͔ͨ͠ΒମͰ֮͑ͨ”͸  ظ଴Ͱ͖ͳ͘ͳ͍ͬͯΔ

ᶅαʔϏε͕҆ఆ͍ͯ͠Δ • ͍΍ɺྑ͍Μ΍Ͱɻͱͯ΋ɻ  Ͱ΋ɺͦΕ͕ނʹɾɾɾɾ • ʮ؂ࢹΞϯνύλʔϯʯΛ༠ൃ͞ΕΔ • ʮ͍ͭ΋ಉ͡ਓʯͰͲ͏ʹ͔ͳΔ • ʮݫ͠໨ʹर͓ͬͯ͜ʂʯ͕Ͱ͖ͪΌ͏

今の所、  まぁコレでOKだと思う

コレからも  同じこと⾔えるの・・・？

圧倒的に、  “⾒直し”が⾜りていないのでは。

Part Ⅱ  弊社監視⼤反省会〜fin〜

Part Ⅲ

⼊⾨監視を読んだ感想:   我々も「⼊⾨」をしていこう。

コネヒト的  脱⽼害計画  監視⺠主化運動

ママリの「監視」の現状を  本にあった⾔葉を使ってまとめてみる 1. 「敏感」なアラートが多い • 「影響度の判断」「問題の切り分け」が  属⼈的になりがち 2. 「ユーザー観点 /
ビジネスKPI」への  メトリクス結びつけが弱い • 「実際にどう影響してる？」の想像できてる？ 3. ツールの使い⽅・読み⽅は、勝⼿に覚えてね！ • でもさ、なんでも  「巻き込まれる」まで、学習意欲ってわかないよね

ママリの「監視」の現状を  本にあった⾔葉を使ってまとめてみる 4. 「開発者も監視に取り組む」はできている！ • OSレイヤ・インフラレイヤのアラートも  「このリリース、施策が原因かな？」って  結びつけて考えてはいるよね 5.
FTSを上げる⽂化 • 少なくとも「チームの学習」に転化する意識はある

どうすれば、  良くなっていきそうか？

ʮ؂ࢹΛຽओԽ͢Δʯ • ʮαʔϏε͸ෳࡶʹͳ͍ͬͯ͘ʯͱ͍͏લఏΛ࣋ͭ ‣ ଐਓੑ͚ͩͰ͸ཱͪ޲͔͑ͳ͘ͳΔ • ؂ࢹΛʮγϯϓϧʯʹ͢Δ ‣ ϢʔβʔӨڹΛத৺ʹਾ͑ͯɺରԠ͢΂͖໰୊Λ໌֬ʹ͢Δ •
ʮ෼͔Γ΍͢͞ʯΛҭΉ ‣ ઐ໳తͳ؍఺͔Βͷ૬ޓڠྗΛࢧԉ͢ΔͨΊɺ  ֤ϝϯόʔ͕ಉ͡ࢹ࠲Ͱঢ়گΛಡΈऔΕΔঢ়گΛ࡞Δ

端的に問題は何なの？ 1. アラートが「多い」 2. アラートが「複雑」で、それゆえに対応が「⾼度」 3. 複雑さや⾼度さに対処するための組織的なサポートがない 4. 2・3の相互的な悪循環 5.
4のために「役割」が固定されていく 6. 5のために「敏感なアラート」が増え、棚卸しが⾜りない

ママリの「監視」の未来を  思い描いてみる 1. アラートを「シンプル」にする • 「アラートじゃないもの」は別にしよう！ • ソフトウェアの品質の観測は、別個の問題として向き合う 2. ユーザーストーリーに⽴脚したメトリクス
• 「この項⽬ → リアルユーザーの被る影響はこう！！」を  想像できるようにする 3. 「全員監視」のためのトレーニング • ツールやナレッジのインプット • 障害対応後の振り返り・共有の充実化

⽬指せ！  脱⽼害で、安⼼安全な世界！監視全体のリデザインのための  ロードマップを作っていますなう

2019年は “組織での”監視に、  ⼊⾨していきましょう！！

入門 入門 監視 / reading-practical-monitoring

入門 入門 監視 / reading-practical-monitoring

More Decks by hideki kinjyo

Other Decks in Technology

Featured

Transcript

入門入門監視 / reading-practical-monitoring

入門入門監視 / reading-practical-monitoring