Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報集約×機械学習で目指す「次」がわかる運用 / OSC2019_Tokyo_Enterprise

TakuyaNaito
October 10, 2019

情報集約×機械学習で目指す「次」がわかる運用 / OSC2019_Tokyo_Enterprise

TakuyaNaito

October 10, 2019
Tweet

Other Decks in Technology

Transcript

  1. - アップデート - 設定変更 - 障害調査・対応 … - ツールの導入 -

    スクリプト、 IaC - ドキュメント化 (マニュアル、ノウハウ) 定常作業 - 起動・停止 - バックアップ - 監視検知対応 … 非定常作業 改善策 未知の事象にどう対応? ? 保守運用作業をもっとうまくやるには 既知 未知 保守運用作業の種類と改善策 改善策
  2. 保守運用作業をもっとうまくやるには 障害調査・対応を例に考えてみる 障害特定 - リソース確認 - プロセス確認 - ログ確認 -

    操作履歴確認 … 影響調査 - 障害範囲 - 業務影響 … 対応方法検討 - 暫定 - 恒久 障害調査・対応が出来る人 システムの理解 障害対応の経験・スキル システム情報を 適切に引き出せる 障害と関連しそうな箇所を 特定し次の行動を考えられる
  3. 保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

    変更履歴 … 原因の検討、確認 ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみる システム情報 次の行動 これらをうまく組み合わせて考えられる人 = 未知の事象にも対応できる 不審 異常…? 問題 なし
  4. 保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

    変更履歴 … 原因の検討、確認 ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみる これらをうまく組み合わせて提供できるツール = 未知の事象にも対応できる 不審 異常…? 問題 なし システム情報 情報の収集・整理 情報集約 情報を分析→異常特定・対応検討 機械学習 次の行動
  5. 保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

    変更履歴 … 原因の検討、確認 ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみる これらをうまく組み合わせて提供できるツール = 運用レコメンドプラットフォーム 不審 異常…? 問題 なし システム情報 情報の収集・整理 情報集約 情報を分析→異常特定・対応検討 機械学習 次の行動
  6. 運用レコメンドプラットフォーム概要 OSSで構成。コンテナ上で稼働し、APIを介して システムの情報収集、分析を行うマイクロサービス(開発中) Backend Frontend Data Analytics ・InfluxDB Database ・Neo4j

    ・Docker ・Kubernetes Infrastructure Other ・GitLab CE ・Fluentd ・Go ・Python ・Flask ・Falcon ・Kong ・JavaScript ・React ・Python ・scikit-learn ・MLflow
  7. Core-api 構成情報 Neo4j ダッシュ ボード 参照 データ システム 時系列データ InfluxDB

    運用者 コレクタ … Zabbix Git + rsync Fluentd 設定ファイル GitLab CE GW Kong 機械学習 時系列データ異常検出 (単体・複数) ログキーワード分析 運用作業レコメンド … 運用レコメンドプラットフォーム概要 API実行 蓄積 分析 設定ファイル 構成情報 リソース 監視データ ログ フィード バック 運用レコメンドプラットフォーム
  8. ダッシュ ボード 参照 運用者 機械学習 時系列データ異常検出 (単体・複数) ログキーワード分析 運用作業レコメンド 運用レコメンドプラットフォーム概要(情報集約)

    分析 フィード バック システム コレクタ … Zabbix Git + rsync Fluentd … 設定ファイル 構成情報 リソース 監視データ ログ Core-api API実行 構成情報 Neo4j データ 時系列データ InfluxDB 設定ファイル GitLab CE 蓄積 運用レコメンドプラットフォーム 収集したいシステム情報に 対応するコレクタを導入 コレクタからAPIを介してデータを収集・蓄積 GW Kong
  9. システム コレクタ … Zabbix Git + rsync Fluentd … 設定ファイル

    構成情報 リソース 監視データ ログ 機械学習 時系列データ異常検出 (単体・複数) ログキーワード分析 運用作業レコメンド 運用レコメンドプラットフォーム概要(情報集約) 分析 Core-api API実行 構成情報 Neo4j データ 時系列データ InfluxDB 設定ファイル GitLab CE 蓄積 運用レコメンドプラットフォーム ダッシュ ボード 参照 運用者 ダッシュボードを通して 運用者が必要な情報を提供 GW Kong
  10. Core-api 構成情報 Neo4j ダッシュ ボード 参照 データ システム 時系列データ InfluxDB

    運用者 コレクタ … Zabbix Git + rsync Fluentd 設定ファイル GitLab CE GW Kong 機械学習 時系列データ異常検出 (単体・複数) ログキーワード分析 運用作業レコメンド … 運用レコメンドプラットフォーム概要 API実行 蓄積 分析 設定ファイル 構成情報 リソース 監視データ ログ フィード バック 運用レコメンドプラットフォーム
  11. システム コレクタ … Zabbix Git + rsync Fluentd … 設定ファイル

    構成情報 リソース 監視データ ログ 運用レコメンドプラットフォーム概要(機械学習) Core-api API実行 蓄積 運用レコメンドプラットフォーム ダッシュ ボード 参照 運用者 フィード バック 機械学習 時系列データ異常検出 (単体・複数) ログキーワード分析 運用作業レコメンド 分析 分析結果の参照 分析に関するフィードバック 構成情報 Neo4j データ 時系列データ InfluxDB 設定ファイル GitLab CE 蓄積されたデータをもとに分析 運用者からのフィードバックを受けて精度向上 GW Kong
  12. まとめ 運用保守作業をより改善するために 情報集約を行い、機械学習により分析することで異常状態を検出、 運用作業をレコメンドするプラットフォームを開発中 お願い - 試験導入 - 改善のご意見 システムの情報や監視情報を有効に活用して運用に役立てたい方

    (例:単なる閾値ベースの監視では気付けない異常状態を早期検出したい等) - 開発のご協力 まとめ・お願い こんな機能やこんな画面があったらより運用に役立つとか使ってみたい等 問い合わせ宛先 [email protected]