Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRENEXT 2020 [B5] New RelicのSREに学ぶSREのためのNew Relic活用法

tanaka_733
January 25, 2020

SRENEXT 2020 [B5] New RelicのSREに学ぶSREのためのNew Relic活用法

tanaka_733

January 25, 2020
Tweet

More Decks by tanaka_733

Other Decks in Technology

Transcript

  1. ©2008–19 New Relic, Inc. All rights reserved
    [B5] New RelicのSREに学ぶ
    SREのためのNew Relic活⽤法
    New Relic株式会社
    シニアテクニカルサポートエンジニア
    ⽥中 孝佳
    #srenext #srenextB
    #newrelic

    View full-size slide

  2. ©2008–19 New Relic, Inc. All rights reserved 2
    Safe Harbor
    This presentation and the information herein (including any information that may be incorporated by reference) is provided for informational purposes only
    and should not be construed as an offer, commitment, promise or obligation on behalf of New Relic, Inc. (“New Relic”) to sell securities or deliver any product,
    material, code, functionality, or other feature. Any information provided hereby is proprietary to New Relic and may not be replicated or disclosed without
    New Relic’s express written permission.
    Such information may contain forward-looking statements within the meaning of federal securities laws. Any statement that is not a historical fact or refers to
    expectations, projections, future plans, objectives, estimates, goals, or other characterizations of future events is a forward-looking statement. These forward-
    looking statements can often be identified as such because the context of the statement will include words such as “believes,” “anticipates,” “expects” or
    words of similar import.
    Actual results may differ materially from those expressed in these forward-looking statements, which speak only as of the date hereof, and are subject to
    change at any time without notice. Existing and prospective investors, customers and other third parties transacting business with New Relic are cautioned not
    to place undue reliance on this forward-looking information. The achievement or success of the matters covered by such forward-looking statements are based
    on New Relic’s current assumptions, expectations, and beliefs and are subject to substantial risks, uncertainties, assumptions, and changes in circumstances
    that may cause the actual results, performance, or achievements to differ materially from those expressed or implied in any forward-looking statement.
    Further information on factors that could affect such forward-looking statements is included in the filings New Relic makes with the SEC from time to time.
    Copies of these documents may be obtained by visiting New Relic’s Investor Relations website at ir.newrelic.com or the SEC’s website at www.sec.gov.
    New Relic assumes no obligation and does not intend to update these forward-looking statements, except as required by law. New Relic makes no warranties,
    expressed or implied, in this presentation or otherwise, with respect to the information provided.

    View full-size slide

  3. ©2008–19 New Relic, Inc. All rights reserved
    ⾃⼰紹介
    3
    現職: シニアテクニカルサポートエンジニア
    New Relicは⽇本の拠点で、⽇本語により、テクニカルサポートを⾏なっています
    経歴:
    Java, C#, Rubyなどを使ったシステムの研究開発や運⽤業務
    AWS, Windows IIS, ASP.NET 環境でのソーシャルゲーム開発運⽤
    Azure上でのRHELやOpenShiftおよび.NET Coreのテクニカルサポート
    C#, Azureを中⼼にコミュニティ勉強会への登壇やブログ執筆
    (Microsoft MVP 7年受賞中)

    View full-size slide

  4. ©2008–19 New Relic, Inc. All rights reserved
    チーム
    プラクティス
    アーキテ
    クチャ
    今⽇お話しする割合

    View full-size slide

  5. ©2008–19 New Relic, Inc. All rights reserved
    本セッションの内容
    5
    New Relic SREのチームはどうなっているか
    New Relic SREがやっているプラクティス
    New Relic のアーキテクチャはどうなっているか
    多数の製品を抱えるSaaSの今を簡単にご紹介
    SREの⼀⽇や、障害対応など簡単にご紹介
    Game Dayといった取り組みから
    どのようにNew Relicを使っているかをご紹介

    View full-size slide

  6. New Relicの
    アーキテクチャ

    View full-size slide

  7. ©2008–19 New Relic, Inc. All rights reserved
    #FUTURESTACK
    New Relicの今昔
    7
    現在
    当初
    New Relic のアラートと
    ダッシュボードを活⽤︕
    Ruby のモノリシック
    アプリ
    サイロ化したチーム
    頻繁でないリリース
    リアクティブな
    モニタリング
    300以上の
    マイクロサービス
    50以上のSREが
    内包された開発チーム
    1⽇に20-70デプロイ
    1分間に20億のイベントと
    メトリックを取り込み

    View full-size slide

  8. ©2008–19 New Relic, Inc. All rights reserved

    View full-size slide

  9. ©2008–19 New Relic, Inc. All rights reserved
    NRDB
    9
    New Relicサービスを⽀えるデータベース
    毎分20億のイベント・メトリクス挿⼊、1兆のイベントに対しクエリ実⾏

    View full-size slide

  10. Data
    Pipelines
    NRDB
    各製品
    データーパイプライン
    共通UI
    プログラマブルUI
    (React Component)
    GraphQL, NRQL
    各製品のAgent
    ログ
    カスタムイベント
    (OpenTelemetryや
    Prometheus含む)
    etc
    kafka
    cluster

    View full-size slide

  11. Kafka クラスター
    90ブローカー、毎秒1500万メッセージ (3年前実績)
    https://www.confluent.io/kafka-summit-sf17/From-Scaling-Nightmare-to-Stream-Dream-Real-time-Stream-
    Processing-at-Scale/
    Source topic
    Result topic
    Split
    Match
    Aggregate
    kafka
    kafka
    Queries

    View full-size slide

  12. New Relic SREの
    チーム

    View full-size slide

  13. ©2008–19 New Relic, Inc. All rights reserved
    New Relic SREのチーム
    • 開発者 +500
    • SRE +50
    How New Relic built its latest product in just six weeks
    https://diginomica.com/new-relic-built-latest-product-six-weeks
    • 障害検知はほぼ全てNew Relicを監視しているNew Relicからのアラート
    New Relic Alert Conditionを使い始めるためのベストプラクティス
    https://blog.newrelic.co.jp/best-practices/best-practices-new-relic-alert-conditions/
    SREやDevOpsチームでのアラート疲れの5つのよくある原因
    https://blog.newrelic.co.jp/engineering/alert-fatigue-sources/

    View full-size slide

  14. ©2008–19 New Relic, Inc. All rights reserved
    New Relicでの実際の障害対応
    14
    アラートで検知する
    ほぼ全ての障害を内部で検知し、対応に移る
    SREが障害対応を主導する
    • 主張に根拠を与える
    • 共通理解を与える
    • 仮説を⽴てる
    • 仮説を検証する
    役割を定義する
    • インシデント司令官
    • 技術リーダー
    • コミュニケーションリード
    • コミュニケーションマネージャー
    https://blog.newrelic.com/engineering/on-call-and-
    incident-response-new-relic-best-practices/
    インシデントの重要度を設定する

    View full-size slide

  15. ©2008–19 New Relic, Inc. All rights reserved
    New Relic SREの⼀⽇
    https://blog.newrelic.com/engineering/what-
    does-an-sre-do/
    • 意外と会議が多い
    • 意外とたくさんのタスクを並行してる
    • MMF(最小市場価値)の一環で
    エンジニアとペアを組み
    コードも追いかけている
    コーヒー飲みながらメールチェック
    8:00
    CoreOS COP
    Kafka Upgrade
    ランチ、同僚の相談に乗る
    緊急MMF会議
    キャパシティ計画会議
    12:00
    フロントエンドエンジニアとMMF
    (Reactのコード)
    リスクマトリクス会議
    MMFの続き
    Kafka Upgradeの確認など
    17:30

    View full-size slide

  16. New Relic SREの
    プラクティス

    View full-size slide

  17. ©2008–19 New Relic, Inc. All rights reserved
    “⽕について学ぶ”、
    その最⾼のタイミングはまさに
    ”⽕がついている”ときです。
    17
    Jen Hammond, New Relic Engineering Manager

    View full-size slide

  18. ©2008–19 New Relic, Inc. All rights reserved
    Game day
    18

    View full-size slide

  19. ©2008–19 New Relic, Inc. All rights reserved
    Game Day とは
    19
    AWS Well-Architected Frameworkによると
    「システムやプロセス、チームの対応をテストするために失敗やイベントを
    シミュレートすること」
    https://wa.aws.amazon.com/wat.concept.gameday.en.html
    SRE として Adversarial Game Day (敵性ゲームデイ) を⾏う⽅法
    https://blog.newrelic.co.jp/best-practices/how-to-run-a-game-day/
    New Relicのサイト信頼性ベストプラクティスの一つ
    https://newrelic.com/resource/site-reliability-engineering
    SLOを上回っている場合最低四半期に⼀度、
    あるいは新しいメンバーのオンボーディングにも利⽤
    リモートでの参加者を含めることも意義がある

    View full-size slide

  20. ©2008–19 New Relic, Inc. All rights reserved
    敵性Game Dayの企画の⼀例
    • ⽬的を明確にする
    • 攻撃側と対応側にチームを分ける
    • 攻撃側
    • 攻撃⼿順を作成する
    • 影響範囲を想定しておく
    • 対応策を想定しておく
    • 対応側
    • 参加者、実施⽇を決めておく
    • フォローアップ
    • 想定した対応策、影響範囲が正しかったか確認
    • New Relicの画⾯に現れたシステムの挙動を記録しておく

    View full-size slide

  21. ©2008–19 New Relic, Inc. All rights reserved
    具体的にどのように⾒ているのか
    • 性能劣化の根本原因を短時間で究明する
    • APMの使い⽅
    • 分散システムの把握
    • Distributed Tracing
    • SLOの⾒える化
    • SLO Reporter by Synthetics
    • 構成管理の完全把握
    • Config Management by Infrastructure

    View full-size slide

  22. ©2008–19 New Relic, Inc. All rights reserved
    分散システムも⼀つ⼀つのアプリから
    22
    フロントエンド
    BrowserおよびMobile
    APM
    それぞれのアプリに
    APM Agentを⼊れるだけ
    アプリ間の繋がり
    トラフィックを⾃動で検出
    Database
    RDBMSやRedis, Memcached
    などもAPMから計測可能

    View full-size slide

  23. ©2008–19 New Relic, Inc. All rights reserved
    コードレベルの特定
    どのメソッドが遅いか
    コードの⾏番号まで特定可能

    View full-size slide

  24. ©2008–19 New Relic, Inc. All rights reserved
    クエリレベルの特定
    クエリの統計
    遅い呼び出しが1回あるのか
    回数が多くて遅延しているのか

    View full-size slide

  25. ©2008–19 New Relic, Inc. All rights reserved
    特定のリクストの繋がりを把握する
    28
    App A App X
    App B App Y
    App C App Z
    HTTP
    gRPC
    Queue

    View full-size slide

  26. フィルター
    時間やエラー数、アプリ数で
    フィルタ可能
    ⾊分け
    最初のアプリごとに⾊分け

    View full-size slide

  27. ©2008–19 New Relic, Inc. All rights reserved

    View full-size slide

  28. ©2008–19 New Relic, Inc. All rights reserved
    SLO Reporter
    指定したSLIをSLOとしてアプリごとに可視化するダッシュボードツール
    https://github.com/newrelic/nr1-slo-r

    View full-size slide

  29. ©2008–19 New Relic, Inc. All rights reserved
    NRQLを使ったError Budget Reportチャート
    33

    View full-size slide

  30. ©2008–19 New Relic, Inc. All rights reserved
    SyntheticsでSLA/SLOを計測
    34
    URLを⼊れるだけ スクリプト
    SeleniumによるBrowser操作
    や、APIのスクリプト実⾏
    Location
    発信元は選ぶだけ
    private minion
    内部ネットワークでも
    計測可能

    View full-size slide

  31. ©2008–19 New Relic, Inc. All rights reserved
    Config Managementの確認のためにInfrastructure
    35

    View full-size slide

  32. ©2008–19 New Relic, Inc. All rights reserved
    まとめ
    36
    New Relic SREのチームはどうなっているか
    New Relic SREがやっているプラクティス
    New Relic のアーキテクチャはどうなっているか
    様々なデータをパイプライン処理するKafka
    ⼤量のデータを保存するNRDB
    アラート、障害対応のポリシー。SREの⼀⽇。
    Game Day
    New Relic各製品を使い⽅の⼀例

    View full-size slide

  33. ©2008–19 New Relic, Inc. All rights reserved
    New Relicを試すには︖
    37
    いますぐに、2週間無料でお試しいただけます。
    SREの皆様にあった使い⽅をご紹介します
    Free Trialの利⽤
    Developer Programの利⽤
    運⽤環境以外で⽉⼀定額まで使えるプラン
    個⼈(少⼈数)でNew Relicの機能を調査するのに使えます
    https://newrelic.co.jp/signup
    https://newrelic.com/signup?partner=Developer+Edition

    View full-size slide

  34. ©2008–19 New Relic, Inc. All rights reserved 38
    Selfie Drone
    ROOM B 出口すぐ
    New Relic Booth
    SRE Dashboard
    CTO Solution
    Consultant
    Customer
    Success
    Manager
    Solution
    Consultant
    দຊ େथ ਗ਼ਫ ؽ େ୩ ࿨ل ࡈ౻ ߃ଠ
    アンケートに答えていただくと
    抽選で Selfie Drone 当たります。
    SRE がみるべき指標をまとめた
    New Relic ダッシュボード。

    View full-size slide

  35. ©2008–19 New Relic, Inc. All rights reserved
    こんなキーワードが気になったらブースへ
    39
    kubernetes (Istio, Prometheus)
    kubernetes監視のための専⽤ダッシュボード
    IstioやPrometheusなどのOSS製品で取得したメトリクスの可視化
    リアルユーザーモニタリング(Browser, Mobile)
    ログ収集、監視、APMとログの連携(Logs in Context)
    パブリッククラウド、クラウド移⾏
    OpenTracing, OpenTelemetry, Zipkin
    APMの分散トレーシングやエラーに関連するログの分析を容易に

    View full-size slide

  36. ©2008–19 New Relic, Inc. All rights reserved
    https://newrelic.co.jp/events/meetup/observability-meetup-3

    View full-size slide

  37. ©2008–19 New Relic, Inc. All rights reserved 41
    New Relic University
    ハンズオンセミナー開催スケジュール
    2.6 障害対応⾼速化 (初級) | 渋⾕
    2.25 障害対応⾼速化 (初級) | 東京
    3.17 障害対応⾼速化 (初級) | 渋⾕
    3.3 レガシーアプリ⾼速化 (中級) | 六本⽊
    https://newrelic.co.jp/events/seminar/nru-20200206
    https://newrelic.co.jp/events/seminar/nru-20200225
    調整中
    https://newrelic.co.jp/events/seminar/nru-20200317

    View full-size slide

  38. ©2008–19 New Relic, Inc. All rights reserved 42
    New Relic で実践する SRE
    開催スケジュール
    New Relic で実践する SRE
    近年、システム運⽤に関わる多くの⽅々がSRE(Site
    Reliability Engineering)に関⼼を持っています。しかし、
    SREがどんなもので何をすればいいのかわからないとお伺い
    することも増えました。今回我々が考えるSREについておさ
    らいとしてご紹介させていただきながら、New Relicを使っ
    たらどのようにSREを実践していけるのか。その実践に向け
    たNew Relicの使い⽅をご紹介していきます。
    Senior Solution Consultant
    ਗ਼ਫ ؽ
    https://newrelic.co.jp/events
    /seminar/20200218-sre
    https://newrelic.co.jp/events
    /seminar/20200311-sre
    2.18 開催
    3.11 開催

    View full-size slide

  39. ©2008–19 New Relic, Inc. All rights reserved
    [email protected]
    @tanaka_733
    Thank You

    View full-size slide