$30 off During Our Annual Pro Sale. View Details »

入門 入門 監視 / reading-practical-monitoring

入門 入門 監視 / reading-practical-monitoring

「入門 監視」を読んだので、自分たちのチームに当てはめて考えてみる

hideki kinjyo
PRO

February 01, 2019
Tweet

More Decks by hideki kinjyo

Other Decks in Technology

Transcript

  1. ⼊⾨ ⼊⾨ 監視
    しゃないのえるてぃー⽤ => 外部公開⽤に編集したもの

    View Slide

  2. ࣗݾ঺հ
    • ίωώτגࣜձࣾ
    • αʔόʔαΠυΤϯδχΞ
    • ओʹCakePHPͳͲ

    View Slide

  3. ─室長!

    我々は、老害だったのかもし
    れませんよ!
    (金城 2019.01@CTO 1on1)

    View Slide

  4. Part 0

    View Slide

  5. ΧϯγϜζΧγΫωʁ
    • ʮ࠷ॳʹर͏ਓʯͱ͔

    ʮຊରԠ͢Δਓʯͱ͔ͷภΓ
    • ΋͠ʮࣗ෼͕શ͘஌Βͳ͍ػೳʯͰ

    ίέΒΕͨΒɺ٧Ή͔΋͠Εͳ͍
    • શһ͕΋ͬͱΰϦΰϦʹ

    Ξϥʔτरͬͯ͘ΕͨΒ޾ͤͩΑͳʙʂ

    View Slide

  6. View Slide

  7. ʮೖ໳ ؂ࢹʯ
    • ͪΐʙͲʮ؂ࢹʂߟ͑ͳ͚Ε͹ʂʂʯͬͯ

    ײ͍ͯͨ࣌͡ظʹʮདྷ݄ൃചʯɻ
    • ֓ཁͱ͔ಡΜͰͳ͍͚Ͳɺ

    λΠτϧʹऒ͔Εͨͷͱɺ༁ऀ͕৴པͰ͖ͦ
    ͏ͳͷͱͰδϟέങ͍

    (ձ͕ࣾങͬͯ͘Εͨɺײँʙ)

    View Slide

  8. PartⅠ

    View Slide

  9. 7ߦ·ͱΊ
    ※ࣾ಺ڞ༗ࡁΈͷʮಡॻϝϞʯΛࢀরʂ

    View Slide

  10. PartⅠ

    「⼊⾨ 監視」、どんな本?
    〜fin〜

    View Slide

  11. Part Ⅱ

    View Slide

  12. 本に書いてあることは、

    すべて本に書いてあるので

    View Slide

  13. 本に書いてないことを

    話しましょうよ!!!

    View Slide

  14. ☓読めばわかること

    ○読んで考えさせられたこと
    ○読んで感じたこと
    をば。

    View Slide

  15. ざっと、おさらい。

    • 本書のテーマともいうべきポイントを。
    • すなわち、

    「こう思ったッス」を話すにあたっての、

    「お気に⼊りポイント」の共有です。

    View Slide

  16. おさらい①
    • 「サービスが動いている」かを監視する。
    • メトリクスは、

    ユーザーにとって

    「どういう挙動を引き起こしているか」を

    説明できる項⽬を選定する

    View Slide

  17. おさらい②
    • アラートは

    「誰かを叩き起こす、要アクション」

    なもの。
    • ⇔「あとでやれば」なものは、

    アラートと⾔わない。

    View Slide

  18. おさらい③
    • アラートは「⾒直し、育てる」もの。
    • 「⾒たけどアクションしなかったもの」は、
    失格!リストラ!外しましょう。

    View Slide

  19. おさらい④
    • 監視は「スキル」。
    • 「役割」にしない!!!

    View Slide

  20. (おさらいココまで)

    View Slide

  21. 我々の「監視」は

    どうだろうか・・・?

    View Slide

  22. ⼤反省ですよ!!
    • 我々の作っているのは

    「アラート」ではなかったのかもしれない
    • 「役割」にはしていない。つもり。

    が、「スキル」=「修得可能なモノ」として

    ⾒えていなかったかもしれない

    View Slide

  23. ΁ʔ͠Όͱ؂ࢹʙࢲͷೖࣾ࣌ʙ
    • ࢲͷೖ͔ࣾ࣌ΒSentry͸ೖͬͯΔ
    • AWS CloudWatch΋ઃఆ͞Ε͍ͯΔ
    • CTO͕શମతʹݟͯͨ

    -> ࢲ͕ೖ͔ࣾͯ͠Βউखʹπʔϧͷ࢖͍ํΛ
    ͍֮͑ͯͬͨ

    View Slide

  24. ΁ʔ͠Όͱ؂ࢹʙΤϯδχΞ૿Ճʙ
    • (αʔόʔαΠυ)ΤϯδχΞ͕૿͑Δ౓ʹ

    ಉ͡Α͏ͳड͚ೖΕͷྲྀΕΛ౿ऻ
    • SlackʹʮԿ͔͕ඈΜͰ͘ΔʯΑ͏ʹͯ͠ɺ

    ඈΜͰ͖ͨΒݟΔ
    • SentryͷIssueΛؾ͕޲͍ͨͱ͖ʹݟΔ

    View Slide

  25. ΁ʔ͠Όͱ؂ࢹʙ؂ࢹͷڧԽʙ
    • ϨϙδτϦ΋ਓ΋૿͑ͨͷͰɺ

    ʮSlackʹ௨஌͕དྷͨΒ൓Ԡ͠Α͏ʯ

    ͱ͍͏ͷΛ໌ݴͨ͠
    • ͜Ε·Ͱ΋SentryͷΠϕϯτ਺Λ௥͍͕ͬͯͨ

    ʮνʔϜશମͰҙࣝ͠Α͏ʯ

    ͱ͍͏࿩Λͨ͠

    View Slide

  26. _⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_
    >                     <
    > 実質的に、やり⽅変わってないじゃんね  <
    >                     <
      ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄

    View Slide

  27. ͕͜͜ʮมΘͬͯͳ͍ʯɻ
    • 2,3ਓͰશͯΛઃܭɾ࣮૷͍ͯͨ࣌͠୅ͷ

    ʮશ෦๊͖͠Ίͯʂʯܕͷ؂ࢹ
    • ͳΜͱͳ͘ͷ໨ඪͱͯ͠ͷ

    ʮΤϥʔΛݮΒͦ͏ʂʯͱ͍͏ਫ਼ਆ࿦
    • ܅͕ٽ͘ͷͳΒ܅ͷྦ·Ͱา͍͍ͯ͘νʔϜ

    ܅͕ٽ͘·ͰԥΔͷΛ΍Ίͳ͍ঢ়گ

    View Slide

  28. View Slide

  29. ─室長!

    我々は、老害(ry

    View Slide

  30. 現状に即し、

    &

    これからに備えねば。

    View Slide

  31. そのために

    「今」の姿を分析してみる。

    View Slide

  32. 我(々)が⾒落としていたもの
    • 監視なんて誰でもできる!

    俺だって教わってなかったさ!!
    • 不具合とかエラーなんて出すな!

    それがゼロなら、障害もほとんど起きねぇ!

    View Slide

  33. 我(々)の思い上がりを

    正すべき、3つの理由

    View Slide

  34. ᶃαʔϏε͸

    ʮෳࡶʯʹͳ͍ͬͯΔ
    • ෳࡶ͞ͱ͸
    • ߏ੒ύʔπͷଟ͞
    • શମʹର͢Δɺݸʑਓͷʮະ஌ʯྖҬͷ޿
    ͞

    View Slide

  35. ᶃαʔϏε͸

    ʮෳࡶʯʹͳ͍ͬͯΔ
    • αʔϏε͕૿͑ͨ͠ɺେ͖͘ͳͬͨ͠
    • ػೳ΋૿͑ͨ͠
    • ΞʔΩςΫνϟ΋มΘͬͨ͠
    • ਓ΋૿͑ͨʂ

    ͦͯ͠ɺਓͦΕͧΕʮઐ໳Խʯ͍ͯ͠Δ͠

    View Slide

  36. ᶄϝϯόʔ΋૿͑ͨ
    • ো֐ͷʮݱ৔ʯʹग़ಈ͢Δ֬཰͕ݮ͍ͬͯΔ
    • ҎલͷΑ͏ʹ

    “࣮ࡍʹରԠ͔ͨ͠ΒମͰ֮͑ͨ”͸

    ظ଴Ͱ͖ͳ͘ͳ͍ͬͯΔ

    View Slide

  37. ᶅαʔϏε͕҆ఆ͍ͯ͠Δ
    • ͍΍ɺྑ͍Μ΍Ͱɻͱͯ΋ɻ

    Ͱ΋ɺͦΕ͕ނʹɾɾɾɾ
    • ʮ؂ࢹΞϯνύλʔϯʯΛ༠ൃ͞ΕΔ
    • ʮ͍ͭ΋ಉ͡ਓʯͰͲ͏ʹ͔ͳΔ
    • ʮݫ͠໨ʹर͓ͬͯ͜ʂʯ͕Ͱ͖ͪΌ͏

    View Slide

  38. 今の所、

    まぁコレでOKだと思う

    View Slide

  39. コレからも

    同じこと⾔えるの・・・?

    View Slide

  40. 圧倒的に、

    “⾒直し”が⾜りていないのでは。

    View Slide

  41. View Slide

  42. Part Ⅱ

    弊社監視⼤反省会
    〜fin〜

    View Slide

  43. Part Ⅲ

    View Slide

  44. ⼊⾨ 監視を読んだ感想: 

    我々も「⼊⾨」をしていこう。

    View Slide

  45. コネヒト的

    脱⽼害計画

    監視⺠主化運動

    View Slide

  46. ママリの「監視」の現状を

    本にあった⾔葉を使ってまとめてみる
    1. 「敏感」なアラートが多い
    • 「影響度の判断」「問題の切り分け」が

    属⼈的になりがち
    2. 「ユーザー観点 / ビジネスKPI」への

    メトリクス結びつけが弱い
    • 「実際にどう影響してる?」の想像できてる?
    3. ツールの使い⽅・読み⽅は、勝⼿に覚えてね!
    • でもさ、なんでも

    「巻き込まれる」まで、学習意欲ってわかないよね

    View Slide

  47. ママリの「監視」の現状を

    本にあった⾔葉を使ってまとめてみる
    4. 「開発者も監視に取り組む」は できている!
    • OSレイヤ・インフラレイヤのアラートも

    「このリリース、施策が原因かな?」って

    結びつけて考えてはいるよね
    5. FTSを上げる⽂化
    • 少なくとも「チームの学習」に転化する意識はある

    View Slide

  48. どうすれば、

    良くなっていきそうか?

    View Slide

  49. ʮ؂ࢹΛຽओԽ͢Δʯ
    • ʮαʔϏε͸ෳࡶʹͳ͍ͬͯ͘ʯͱ͍͏લఏΛ࣋ͭ
    ‣ ଐਓੑ͚ͩͰ͸ཱͪ޲͔͑ͳ͘ͳΔ
    • ؂ࢹΛʮγϯϓϧʯʹ͢Δ
    ‣ ϢʔβʔӨڹΛத৺ʹਾ͑ͯɺରԠ͢΂͖໰୊Λ໌֬ʹ͢Δ
    • ʮ෼͔Γ΍͢͞ʯΛҭΉ
    ‣ ઐ໳తͳ؍఺͔Βͷ૬ޓڠྗΛࢧԉ͢ΔͨΊɺ

    ֤ϝϯόʔ͕ಉ͡ࢹ࠲Ͱঢ়گΛಡΈऔΕΔঢ়گΛ࡞Δ

    View Slide

  50. 端的に問題は何なの?
    1. アラートが「多い」
    2. アラートが「複雑」で、それゆえに対応が「⾼度」
    3. 複雑さや⾼度さに対処するための組織的なサポートがない
    4. 2・3の相互的な悪循環
    5. 4のために「役割」が固定されていく
    6. 5のために「敏感なアラート」が増え、棚卸しが⾜りない

    View Slide

  51. ママリの「監視」の未来を

    思い描いてみる
    1. アラートを「シンプル」にする
    • 「アラートじゃないもの」は別にしよう!
    • ソフトウェアの品質の観測は、別個の問題として向き合う
    2. ユーザーストーリーに⽴脚したメトリクス
    • 「この項⽬ → リアルユーザーの被る影響はこう!!」を

    想像できるようにする
    3. 「全員監視」のためのトレーニング
    • ツールやナレッジのインプット
    • 障害対応後の振り返り・共有の充実化

    View Slide

  52. ⽬指せ!

    脱⽼害で、安⼼安全な世界!
    監視全体のリデザインのための

    ロードマップを作っていますなう

    View Slide

  53. 2019年は
    “組織での”監視に、

    ⼊⾨していきましょう!!

    View Slide