Upgrade to Pro — share decks privately, control downloads, hide ads and more …

開発生産性向上のための 監視運用改善

Avatar for dmmsre dmmsre
July 11, 2024
240

開発生産性向上のための 監視運用改善

開発生産性Conference2024 登壇資料

Avatar for dmmsre

dmmsre

July 11, 2024
Tweet

Transcript

  1. © DMM.com 自己紹介 • 名前 : 湯浅 省吾(ゆあさ しょうご) • 所属

    : DMM.com ITインフラ本部 SRE部 • 担当業務: DMMオンラインサロンや、DMM通販などでSREとし て、サービスの信頼性向上や、AWS関連での 技術支援を行なっている
  2. © DMM.com DMM.comにおけるSRE部の業務 ミッション ❏ DMMのすべてのサービスとインフラストラクチャを ソフトウェアの力で最適化する 大きく2つのチームで活動 ❏ 事業支援チーム

    ❏ DMMの各種事業/サービスへの技術支援 ❏ DMMオンラインサロン ❏ DMMブックス ❏ DMM通販 …etc ❏ 信頼性向上チーム ❏ SLO導入推進 ❏ 自動化推進/トイル削減 …etc
  3. © DMM.com New Relic導入のキッカケとなる出来事 2020年ごろから数年かけて、レガシー脱却の取り組みを行った ❏ クラウド化、さらにはコンテナ化 ❏ いわゆる Lift

    & Shift オンラインサロン 入会/管理システム ❏ オンプレ → AWS EC2 → AWS ECS Fargate オンラインサロン コミュニティツール ❏ AWS Elastic Beanstalk → AWS ECS Fargate
  4. © DMM.com 既存の監視における課題 (1)各システムで監視ツールがバラバラ ❏ オンラインサロン入会/管理システム • Zabbix、StatusCake ❏ コミュニティツール

    • Mackerel、CloudWatch (2)インフラ/監視基盤のサイロ化 ❏ インフラ/監視基盤は別部門が管轄しており、何か設定や変更を行う場合、 作業依頼が必要となり、毎回時間がかかっていた (3)アプリケーションの状況把握に時間がかかる ❏ アプリケーションの状態が把握できるような監視ツールが入っていなかった ❏ ログを参照するにはサーバにSSHして確認する必要があった
  5. © DMM.com (1)監視ツールを New Relicに統一 各システムの監視ツールをNew Relicに統一した ❏ 監視運用の手法を統一することができ、運用が効率化 ❏

    システム横断で状態が把握できるようになり障害調査や分析が 効率的に行えるようになった ❏ 統一されたツールでの運用となったため、学習コストが下がった 運用効率化 システム横断で 状況把握 学習コストの低下
  6. © DMM.com (3)New Relic APM / Logsの活用 New Relic APM

    を利用することで、アプリケーションの細かな動きが把握で きるようになった ❏ どのような処理が呼び出されていて、どこで時間かかっているのか 可視化されることで、調査が捗った
  7. © DMM.com (3)New Relic APM / Logsの活用 New Relic Logsを利用することで、サーバにSSHログインしなくても

    ブラウザから簡単に、システム横断でログを参照できるようになった ・踏み台経由でログインしなきゃ ・本番だから立ち合い必要だ ・複数サーバからログ収集しなきゃ ・まとめて検索するの大変 などなど ・ブラウザで一括検索できてラクチン ・サーバ側でユーザー用意しなくていい
  8. © DMM.com さらに New Relic ダッシュボードも活用 導入当初は、隔週で「監視ツールを眺める会」を行った ❏ ダッシュボードを眺めて気になるところを議論 ❏

    監視ツールの使い方を覚える、監視ツールを見るクセが システム性能だけでなく、AWS料金等も可視化することで、意図しないコスト 増加にも対処できるようになった
  9. © DMM.com 想定していた効果と副次効果 想定していた効果 ❏ ツールの集約や設定のセルフコントロールなどによる運用の最適化 ❏ New Relicを使うことでより細かくシステムの状態が見られる 副次効果

    ❏ 日々の変化に気づけるようになり、障害の未然防止に寄与 ❏ 異常が発生したときに、速やかな初動対応ができる ❏ より開発に集中できるようになった 今日も 健康ですね おや? 熱がありますね 早期発見できた のですぐに対処す れば大丈夫 今日も元気に 活躍できるぞ
  10. © DMM.com 今後の展望 New Relicを導入、活用していく取り組みは支援先では当たり前に なってきている さらに進んだ取り組みとして、New Relicも活用しながら SLO(Service Level

    Objective)を全社的に導入していく取り組みを 進めている 開発に注力できる環境を整えるだけでなく、SLOを導入していくことで ユーザーの満足にも貢献できるようなサービスを、事業部と一緒に 実現していきたい