Slide 1

Slide 1 text

Copyright © Henry, Inc. All rights reserved. ゆるくアラート作って ゆるくアラート消して ゆるくSREしよう ゆるSRE勉強会 #16 株式会社ヘンリー Masaki Sugimoto

Slide 2

Slide 2 text

Copyright © Henry, Inc. All rights reserved. ● はじめに ● ゆるいアラートとゆるくないアラート ● ゆるいアラートを実践したことでおきたこと ● まとめ 2 目次

Slide 3

Slide 3 text

Copyright © Henry, Inc. All rights reserved. ● 名前 ○ Masaki Sugimoto(@Msksgm) ● 所属 ○ 株式会社ヘンリー ● 現在のロール ○ レセコン一体型電子カルテ「Henry」のレセコン側のSWE ● 過去の経歴 ○ Yahoo!オークション・Yahoo!フリマの SRE ○ Yahoo!オークション・Yahoo!フリマの課金システムの SWE ● その他 ○ オブザーバビリティまわりでいろいろやってます 3 はじめに 自己紹介 SNSのアイコン 執筆した 技術同人誌 Observability Conference Tokyo 2025

Slide 4

Slide 4 text

Copyright © Henry, Inc. All rights reserved. 4 はじめに 会社紹介1

Slide 5

Slide 5 text

Copyright © Henry, Inc. All rights reserved. 5 はじめに 会社紹介2

Slide 6

Slide 6 text

Copyright © Henry, Inc. All rights reserved. 発表内容 ● もっとゆるくアラートを作って信頼性を高めようという話 ● SLI/SLO、エラーバジェット、etc...も SRE だけど、もっと基本的な話 前提 ● 登壇者は SWE で、仕様をコードレベルで調査と修正ができる ● OpenTelemetry 導入済み、トレースの可視化は Honeycomb を利用 6 はじめに 発表概要

Slide 7

Slide 7 text

Copyright © Henry, Inc. All rights reserved. Q. みなさん、アラート(広義の意味では通知)は好きですか? A.(多分)「内容による」 嫌なアラート←今日は主にこっち ● ずっと鳴り続ける ● みんな無視している ● オンコール 好きなアラート ● 初リリースの動作が正常完了にしたときの通知 7 ゆるいアラートとゆるくないアラート 大前提

Slide 8

Slide 8 text

Copyright © Henry, Inc. All rights reserved. これもきっといろいろな理由がある。。。 →本来は、鳴らないよりは何倍もマシなはず ● アラートの数が多い ● 間違ったアラートが飛んでくる ● 昔からあるアラート ● そもそも何のアラートかわからん 8 ゆるいアラートとゆるくないアラート 嫌なアラートがうまれる理由

Slide 9

Slide 9 text

Copyright © Henry, Inc. All rights reserved. それは、多分「ゆるくない」から ● 間違ったアラートが飛んでくる ○ 偽陽性が高い ● アラートの数が多い ○ 意味があれば数は関係ないはずだが、、、減らすきっかけがない ● 昔からあるアラート ○ 「再発防止」で生まれたリアクティブなアラート ● そもそも何のアラートかわからん ○ アラート名がユーザー体験ベースではなくコードベース 9 ゆるいアラートとゆるくないアラート 嫌なアラートがうまれる理由

Slide 10

Slide 10 text

Copyright © Henry, Inc. All rights reserved. 「ゆるいアラート」とは、プロアクティブに作って後で削除できるアラート 10 ゆるいアラートとゆるくないアラート ゆるいアラート・ゆるくないアラートの定義 (アラートの) ゆるい ゆるくない 偽陽性 低い 高い 目的 明確 不明瞭 作成経緯 プロアクティブ リアクティブ ユーザー体験の悪化が わかる わからない 表:「ゆるいアラート」と「ゆるくないアラート」

Slide 11

Slide 11 text

Copyright © Henry, Inc. All rights reserved. オブザーバビリティが高い環境では、偽陽性が低いアラートを作れる(と思う) →ユーザー体験の悪化と不具合の原因箇所を追いやすい 11 ゆるいアラートとゆるくないアラート ゆるくアラートを作るために 2000 span 以上あるトレース エラーSpanを含むトレース エラーSpan① エラーSpan②

Slide 12

Slide 12 text

Copyright © Henry, Inc. All rights reserved. ● 「目的」と「削除条件」を記述する ○ アラートの目的を複数もたせない。 ○ ただし、単純にやるとアラートが増える。 ○ 減らすきっかけを、作るために「削除条件」を書く 12 ゆるいアラートとゆるくないアラート ゆるくアラートを作るために アラートの目的 アラートの削除条件

Slide 13

Slide 13 text

Copyright © Henry, Inc. All rights reserved. ● ユースケース1 ○ リリース中に操作すると100%エラーが発生しユーザーの業務に影響を与えるが、利用頻度が 低いためリスク低と判断し通常リリース ○ 発生したときの緊急度高 ● ユースケース2 ○ 特定のお客様の環境で発生したエラー。なぜか途中で収束したため、根本原因わからず ○ 発生したときの緊急度高 13 ゆるいアラートを実践したことでおきたこと 事例

Slide 14

Slide 14 text

Copyright © Henry, Inc. All rights reserved. ● ユースケース1 ○ リリース中に操作すると100%エラーが発生しユーザーの業務に影響を与えるが、利用頻度が 低いためリスク低と判断し通常リリース ○ 発生したときの緊急度高 ● ユースケース2 ○ 特定のお客様の環境で発生したエラー。なぜか途中で収束したため、根本原因わからず ○ 発生したときの緊急度高 14 ゆるいアラートを実践したことでおきたこと 事例 どちらもアラート が発生

Slide 15

Slide 15 text

Copyright © Henry, Inc. All rights reserved. ● ユースケース1 ○ 別件でエラーが発生して通知がきた。想定とは違ったけど初動は早かった ● ユースケース2 ○ シンプルに再発した。CSに即座に問い合わせて、状況再現が早かった 15 ゆるいアラートを実践したことでおきたこと 事例 あれ、ゆるいアラートつけているけど、 ユーザー体験悪化させているし信頼性低くない。。。? 🤔

Slide 16

Slide 16 text

Copyright © Henry, Inc. All rights reserved. ● 「いやなアラート」は「偽陽性」「数が多い」「目的が曖昧」 ○ アラートを無視して、最悪 Slack 通知をオフにする。「アラートはある」が無視している ○ 「ゆるくない」(「とりえあず」、「再発防止」、etc...)理由で作られた可能性が高い ● 「今回のアラート」は「真陽性」「限定的」「目的が明確」 ○ 対応しないといけないことが明確。アラートが鳴ってよかった ○ 目的を終えたので削除した ○ 「ゆるく」(自発的に、あとで消せば良いや、etc...)から始まった 16 ゆるいアラートを実践したことでおきたこと ふりかえり

Slide 17

Slide 17 text

Copyright © Henry, Inc. All rights reserved. ● 「ゆるいアラート」がワークすると「ゆるさ」をキープする引力が生まれる ○ 他のSWEが手動計装したり、オブザーバビリティが低い箇所の改善を始めた ○ ユーザー体験に応じたアラートを増やすことに躊躇しなくなった ○ 最も簡単な SREing を継続できている ● 現在の課題 ○ メトリクスベースのアラートとの併用 ○ 現在は解決できないアラートと遭遇していないが、遭遇したときに偽陽性が上がる 17 ゆるいアラートを実践したことでおきたこと 現在

Slide 18

Slide 18 text

Copyright © Henry, Inc. All rights reserved. ● 「ゆるいアラート」と「ゆるくないアラート」を紹介 ● 「ゆるいアラート」にするために、目的と削除条件を明確にした ● 「ゆるいアラート」が適切に鳴って、顧客体験を守った ● 「ゆるさ」をキープし始める動きが生まれた 18 まとめ 発表まとめ

Slide 19

Slide 19 text

Copyright © Henry, Inc. All rights reserved. 採用情報や事業や技術について、積極的に発信しています! 採用情報 採用募集ページ 募集中の採用ポジションや募集要項 がご確認いただけます。 オープンポジションのカジュアル面 談も募集していますので、お気軽に お申し込みください。 技術ブログ はてなブログ ヘンリー製品開発チームが運営する 技術ブログです。 会社公式ブログ note ヘンリーで働く人や医療業界や事業 のことが幅広くしれる公式ブログで す。 CEO の逆瀬川も個人で NOTE を発 信しているのでぜひ! 理想駆動ラジオ Spotify プロダクト開発・運営の様子をお届 けするポッドキャストです。 19