「入門 監視」を読んだので、自分たちのチームに当てはめて考えてみる
⼊⾨ ⼊⾨ 監視しゃないのえるてぃー⽤ => 外部公開⽤に編集したもの
View Slide
ࣗݾհ• ίωώτגࣜձࣾ• αʔόʔαΠυΤϯδχΞ• ओʹCakePHPͳͲ
─室長! 我々は、老害だったのかもしれませんよ!(金城 2019.01@CTO 1on1)
Part 0
ΧϯγϜζΧγΫωʁ• ʮ࠷ॳʹर͏ਓʯͱ͔ ʮຊରԠ͢Δਓʯͱ͔ͷภΓ• ͠ʮ͕ࣗશ͘Βͳ͍ػೳʯͰ ίέΒΕͨΒɺ٧Ή͔͠Εͳ͍• શһ͕ͬͱΰϦΰϦʹ Ξϥʔτरͬͯ͘ΕͨΒͤͩΑͳʙʂ
ʮೖ ࢹʯ• ͪΐʙͲʮࢹʂߟ͑ͳ͚Εʂʂʯͬͯ ײ͍ͯͨ࣌͡ظʹʮདྷ݄ൃചʯɻ• ֓ཁͱ͔ಡΜͰͳ͍͚Ͳɺ λΠτϧʹऒ͔Εͨͷͱɺ༁ऀ͕৴པͰ͖ͦ͏ͳͷͱͰδϟέങ͍ (ձ͕ࣾങͬͯ͘Εͨɺײँʙ)
PartⅠ
7ߦ·ͱΊ※ࣾڞ༗ࡁΈͷʮಡॻϝϞʯΛࢀরʂ
PartⅠ 「⼊⾨ 監視」、どんな本?〜fin〜
Part Ⅱ
本に書いてあることは、 すべて本に書いてあるので
本に書いてないことを 話しましょうよ!!!
☓読めばわかること ○読んで考えさせられたこと○読んで感じたことをば。
ざっと、おさらい。 • 本書のテーマともいうべきポイントを。• すなわち、 「こう思ったッス」を話すにあたっての、 「お気に⼊りポイント」の共有です。
おさらい①• 「サービスが動いている」かを監視する。• メトリクスは、 ユーザーにとって 「どういう挙動を引き起こしているか」を 説明できる項⽬を選定する
おさらい②• アラートは 「誰かを叩き起こす、要アクション」 なもの。• ⇔「あとでやれば」なものは、 アラートと⾔わない。
おさらい③• アラートは「⾒直し、育てる」もの。• 「⾒たけどアクションしなかったもの」は、失格!リストラ!外しましょう。
おさらい④• 監視は「スキル」。• 「役割」にしない!!!
(おさらいココまで)
我々の「監視」は どうだろうか・・・?
⼤反省ですよ!!• 我々の作っているのは 「アラート」ではなかったのかもしれない• 「役割」にはしていない。つもり。 が、「スキル」=「修得可能なモノ」として ⾒えていなかったかもしれない
ʔ͠Όͱࢹʙࢲͷೖࣾ࣌ʙ• ࢲͷೖ͔ࣾ࣌ΒSentryೖͬͯΔ• AWS CloudWatchઃఆ͞Ε͍ͯΔ• CTO͕શମతʹݟͯͨ -> ࢲ͕ೖ͔ࣾͯ͠Βউखʹπʔϧͷ͍ํΛ͍֮͑ͯͬͨ
ʔ͠ΌͱࢹʙΤϯδχΞ૿Ճʙ• (αʔόʔαΠυ)ΤϯδχΞ͕૿͑Δʹ ಉ͡Α͏ͳड͚ೖΕͷྲྀΕΛ౿ऻ• SlackʹʮԿ͔͕ඈΜͰ͘ΔʯΑ͏ʹͯ͠ɺ ඈΜͰ͖ͨΒݟΔ• SentryͷIssueΛؾ͕͍ͨͱ͖ʹݟΔ
ʔ͠ΌͱࢹʙࢹͷڧԽʙ• ϨϙδτϦਓ૿͑ͨͷͰɺ ʮSlackʹ௨͕དྷͨΒԠ͠Α͏ʯ ͱ͍͏ͷΛ໌ݴͨ͠• ͜Ε·ͰSentryͷΠϕϯτΛ͍͕ͬͯͨ ʮνʔϜશମͰҙࣝ͠Α͏ʯ ͱ͍͏Λͨ͠
_⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_> <> 実質的に、やり⽅変わってないじゃんね <> <  ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄
͕͜͜ʮมΘͬͯͳ͍ʯɻ• 2,3ਓͰશͯΛઃܭɾ࣮͍ͯͨ࣌͠ͷ ʮશ෦๊͖͠Ίͯʂʯܕͷࢹ• ͳΜͱͳ͘ͷඪͱͯ͠ͷ ʮΤϥʔΛݮΒͦ͏ʂʯͱ͍͏ਫ਼ਆ• ܅͕ٽ͘ͷͳΒ܅ͷྦ·Ͱา͍͍ͯ͘νʔϜ ܅͕ٽ͘·ͰԥΔͷΛΊͳ͍ঢ়گ
─室長! 我々は、老害(ry
現状に即し、 & これからに備えねば。
そのために 「今」の姿を分析してみる。
我(々)が⾒落としていたもの• 監視なんて誰でもできる! 俺だって教わってなかったさ!!• 不具合とかエラーなんて出すな! それがゼロなら、障害もほとんど起きねぇ!
我(々)の思い上がりを 正すべき、3つの理由
ᶃαʔϏε ʮෳࡶʯʹͳ͍ͬͯΔ• ෳࡶ͞ͱ• ߏύʔπͷଟ͞• શମʹର͢ΔɺݸʑਓͷʮະʯྖҬͷ͞
ᶃαʔϏε ʮෳࡶʯʹͳ͍ͬͯΔ• αʔϏε͕૿͑ͨ͠ɺେ͖͘ͳͬͨ͠• ػೳ૿͑ͨ͠• ΞʔΩςΫνϟมΘͬͨ͠• ਓ૿͑ͨʂ ͦͯ͠ɺਓͦΕͧΕʮઐԽʯ͍ͯ͠Δ͠
ᶄϝϯόʔ૿͑ͨ• োͷʮݱʯʹग़ಈ͢Δ͕֬ݮ͍ͬͯΔ• ҎલͷΑ͏ʹ “࣮ࡍʹରԠ͔ͨ͠ΒମͰ֮͑ͨ” ظͰ͖ͳ͘ͳ͍ͬͯΔ
ᶅαʔϏε͕҆ఆ͍ͯ͠Δ• ͍ɺྑ͍ΜͰɻͱͯɻ ͰɺͦΕ͕ނʹɾɾɾɾ• ʮࢹΞϯνύλʔϯʯΛ༠ൃ͞ΕΔ• ʮ͍ͭಉ͡ਓʯͰͲ͏ʹ͔ͳΔ• ʮݫ͠ʹर͓ͬͯ͜ʂʯ͕Ͱ͖ͪΌ͏
今の所、 まぁコレでOKだと思う
コレからも 同じこと⾔えるの・・・?
圧倒的に、 “⾒直し”が⾜りていないのでは。
Part Ⅱ 弊社監視⼤反省会〜fin〜
Part Ⅲ
⼊⾨ 監視を読んだ感想: 我々も「⼊⾨」をしていこう。
コネヒト的 脱⽼害計画 監視⺠主化運動
ママリの「監視」の現状を 本にあった⾔葉を使ってまとめてみる1. 「敏感」なアラートが多い• 「影響度の判断」「問題の切り分け」が 属⼈的になりがち2. 「ユーザー観点 / ビジネスKPI」への メトリクス結びつけが弱い• 「実際にどう影響してる?」の想像できてる?3. ツールの使い⽅・読み⽅は、勝⼿に覚えてね!• でもさ、なんでも 「巻き込まれる」まで、学習意欲ってわかないよね
ママリの「監視」の現状を 本にあった⾔葉を使ってまとめてみる4. 「開発者も監視に取り組む」は できている!• OSレイヤ・インフラレイヤのアラートも 「このリリース、施策が原因かな?」って 結びつけて考えてはいるよね5. FTSを上げる⽂化• 少なくとも「チームの学習」に転化する意識はある
どうすれば、 良くなっていきそうか?
ʮࢹΛຽओԽ͢Δʯ• ʮαʔϏεෳࡶʹͳ͍ͬͯ͘ʯͱ͍͏લఏΛ࣋ͭ‣ ଐਓੑ͚ͩͰཱ͔ͪ͑ͳ͘ͳΔ• ࢹΛʮγϯϓϧʯʹ͢Δ‣ ϢʔβʔӨڹΛத৺ʹਾ͑ͯɺରԠ͖͢Λ໌֬ʹ͢Δ• ʮ͔Γ͢͞ʯΛҭΉ‣ ઐతͳ؍͔Βͷ૬ޓڠྗΛࢧԉ͢ΔͨΊɺ ֤ϝϯόʔ͕ಉ͡ࢹ࠲Ͱঢ়گΛಡΈऔΕΔঢ়گΛ࡞Δ
端的に問題は何なの?1. アラートが「多い」2. アラートが「複雑」で、それゆえに対応が「⾼度」3. 複雑さや⾼度さに対処するための組織的なサポートがない4. 2・3の相互的な悪循環5. 4のために「役割」が固定されていく6. 5のために「敏感なアラート」が増え、棚卸しが⾜りない
ママリの「監視」の未来を 思い描いてみる1. アラートを「シンプル」にする• 「アラートじゃないもの」は別にしよう!• ソフトウェアの品質の観測は、別個の問題として向き合う2. ユーザーストーリーに⽴脚したメトリクス• 「この項⽬ → リアルユーザーの被る影響はこう!!」を 想像できるようにする3. 「全員監視」のためのトレーニング• ツールやナレッジのインプット• 障害対応後の振り返り・共有の充実化
⽬指せ! 脱⽼害で、安⼼安全な世界!監視全体のリデザインのための ロードマップを作っていますなう
2019年は“組織での”監視に、 ⼊⾨していきましょう!!