Upgrade to Pro — share decks privately, control downloads, hide ads and more …

13年物プロダクトの監視を起点とした改善活動

money166
October 02, 2021
1.2k

 13年物プロダクトの監視を起点とした改善活動

PHP Conference Japan 2021の発表資料

Hameeでは"ネクストエンジン"というプロダクトをPHPを使って開発・運用をしています。

ネクストエンジンは13年の開発・運用を重ねて成長してきた一方でたくさんの課題も抱えており、その課題を解決するため日々改善活動を行っています。今回は監視の観点から弊社アプリケーションエンジニアとSREエンジニアの二名が現場から生の声をお届けします。

- どんな問題があり監視を行っているのか
- どのような監視を行って改善しているのか
- アプリケーションエンジニアとSREエンジニアでどう連携を行っているか

対象
- まだ監視していない人
- 監視しているけど、うまく運用できていない人
- 13年物のプロダクト開発・運用に興味がある人

money166

October 02, 2021
Tweet

Transcript

  1. - 2007年 Hamee内での提供開始  - 2008年 外部向けサービス提供開始 - 2013年 ネクストエンジンAPI公開 -

    2021年 オンプレからAWSへの移行中 2007 2021 13年機能強化・対応モール強化を続け サービス成長し続けて来ました。 ネクストエンジンの歴史
  2. - PHPとMySQLのwebアプリケーション - PHPコード - 8000ファイル - 50万行 - 処理しているプロセス

    - Webリクエストプロセス - バッチプロセス - メール受信プロセス システムと処理するプロセスに関して
  3. 改善する前の監視 - インフラ視点 - 問題が起きた場合にメールで結果を通知 - DB接続 - CPU・メモリ -

    アプリ視点 - 監視はしていない - 特定機能でのエラーメール通知
  4. 問題が発生 1: 操 作 2: 問い合わせ 3: 調査依頼 お客様 カスタマー

    サポート エンジニア 障害認知 大量のメール 改善前の障害認知方法
  5. ログレベル設計(アプリケーション側) レベル 概要 状況 取り扱い方 例 ERROR 要対応 重要な動作に支障 発生を監視

    発生した場合に解消を試 みる バッチ失敗・パフォーマンス 低下、DB接続失敗 WARNING Weekly確認用 動作に支障 or 準正常系 発生状況を監視 多発した場合に影響が出 ているか確認 リトライで復旧可、バリデー ションエラー、操作ミス INFO 情報 正常に動作 パフォーマンス監視等に 利用 ログイン成功、バッチ成功 DEBUG デバック 開発時の 詳細な情報 本番環境では記録しない 開発時に必要に応じて利 用する Alert Notify
  6. パフォーマンス定点観測会 • 毎週木曜日 15:00-16:00 • 手順 o zoomに集合 o 共有事項があれば共有

    o 3,4人になるようにブレイクアウトルーム o 各チームで確認、深堀、考察(20分ほど) ▪ Datadogダッシュボード ▪ ログ、パフォーマンス o 再度集まり、問題・気づきを共有、必要があればタスク化
  7. パフォ会起点で改善できた例 • ログレベル適正化 o ユーザー影響が出ていないのに、Alert通知されていた • 潜在的なバグ発見、修正 o ユーザー問い合わせが来ていないエラー •

    お客さんの設定ミスを発見、サポート経由での協力 o 問い合わせ前の発見 • アラートの改善 o 閾値変更、新たなアラート追加
  8. 結果 • 監視運用が回っている o 陳腐化してない!!! • アプリケーション特性を毎週見ることで傾向把握 o 在籍が長い人の肌感をデータで •

    Datadogに慣れた o 機会が増え、操作感把握 • アラート対応に積極的になっていった o 改善が進むことで、重要なアラートに絞られていった
  9. ネクストエンジンの障害検知(改善前) 問題が発生 1: ネ クス トエ ン ジ ン を操

    作 2: 問い合わせ 3: 調査依頼 お客様 カスタマー サポート エンジニア 障害認知 大量のメール
  10. ネクストエンジンの障害検知(改善後) 問題が発生 1: ネ クス トエ ン ジ ン を操

    作 お客様 カスタマー サポート エンジニア 障害認知  アラート
  11. Hameeでは一緒に働く仲間を募集 - 小田原に住んでる人 - 「小田原手当」制度 - 小田原に住んでいない人 - 「いざ!小田原」制度 -

    その他リモート補助制度も存 在します。 新幹線と小田急ロマンスカーの停車駅 である小田原の地の利を 活かし、通勤手段として新幹線・特急電車・飛行機・船・高速バスの 利用を可能とする 小田原周辺地域に住む社員に対して月2万円の手当金を支給する 「小田原手当」制度