情報集約×機械学習で目指す「次」がわかる運用 / OSC2019_Tokyo_Enterprise

情報集約 x 機械学習で目指す「次」がわかる運用 TIS株式会社内藤拓也 2019/10/10 オープンソースカンファレンス 2019
.Enterprise

自己紹介内藤拓也 TIS株式会社 IT基盤エンジニアリング第1部氏名：所属：業務：～5月インフラ構築・移行・保守運用等
5月～運用レコメンドプラットフォーム開発 Python, React , Docker, 等技術要素：

1. 保守運用作業をもっとうまくやるには 2. 運用レコメンドプラットフォーム紹介 3. まとめとお願いアジェンダ

保守運用作業もっとうまくやるには (自動化、効率化、脱属人化…)

- アップデート - 設定変更 - 障害調査・対応 … - ツールの導入 -
スクリプト、 IaC - ドキュメント化 (マニュアル、ノウハウ) 定常作業 - 起動・停止 - バックアップ - 監視検知対応 … 非定常作業改善策未知の事象にどう対応？ ? 保守運用作業をもっとうまくやるには既知未知保守運用作業の種類と改善策改善策

保守運用作業をもっとうまくやるには障害調査・対応を例に考えてみる障害特定 - リソース確認 - プロセス確認 - ログ確認 -
操作履歴確認 … 影響調査 - 障害範囲 - 業務影響 … 対応方法検討 - 暫定 - 恒久障害調査・対応が出来る人システムの理解障害対応の経験・スキルシステム情報を適切に引き出せる障害と関連しそうな箇所を特定し次の行動を考えられる

保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -
変更履歴 … 原因の検討、確認ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみるシステム情報次の行動これらをうまく組み合わせて考えられる人 = 未知の事象にも対応できる不審異常…？問題なし

変更履歴 … 原因の検討、確認ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみるこれらをうまく組み合わせて提供できるツール = 未知の事象にも対応できる不審異常…？問題なしシステム情報情報の収集・整理情報集約情報を分析→異常特定・対応検討機械学習次の行動

変更履歴 … 原因の検討、確認ログ確認 Error1 Warning1 Warning2 Info … リソース状態の確認 - 疎通は可能か - 誤った操作はないか - 設定に問題はないか … 障害調査・対応を例に考えてみるこれらをうまく組み合わせて提供できるツール = 運用レコメンドプラットフォーム不審異常…？問題なしシステム情報情報の収集・整理情報集約情報を分析→異常特定・対応検討機械学習次の行動

2. 運用レコメンドプラットフォーム紹介

運用レコメンドプラットフォーム概要 OSSで構成。コンテナ上で稼働し、APIを介してシステムの情報収集、分析を行うマイクロサービス(開発中) Backend Frontend Data Analytics ・InfluxDB Database ・Neo4j
・Docker ・Kubernetes Infrastructure Other ・GitLab CE ・Fluentd ・Go ・Python ・Flask ・Falcon ・Kong ・JavaScript ・React ・Python ・scikit-learn ・MLflow

Core-api 構成情報 Neo4j ダッシュボード参照データシステム時系列データ InfluxDB
運用者コレクタ … Zabbix Git + rsync Fluentd 設定ファイル GitLab CE GW Kong 機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド … 運用レコメンドプラットフォーム概要 API実行蓄積分析設定ファイル構成情報リソース監視データログフィードバック運用レコメンドプラットフォーム

ダッシュボード参照運用者機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド運用レコメンドプラットフォーム概要(情報集約)
分析フィードバックシステムコレクタ … Zabbix Git + rsync Fluentd … 設定ファイル構成情報リソース監視データログ Core-api API実行構成情報 Neo4j データ時系列データ InfluxDB 設定ファイル GitLab CE 蓄積運用レコメンドプラットフォーム収集したいシステム情報に対応するコレクタを導入コレクタからAPIを介してデータを収集・蓄積 GW Kong

システムコレクタ … Zabbix Git + rsync Fluentd … 設定ファイル
構成情報リソース監視データログ機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド運用レコメンドプラットフォーム概要(情報集約) 分析 Core-api API実行構成情報 Neo4j データ時系列データ InfluxDB 設定ファイル GitLab CE 蓄積運用レコメンドプラットフォームダッシュボード参照運用者ダッシュボードを通して運用者が必要な情報を提供 GW Kong

ダッシュボード (イベントデータ) 運用レコメンドプラットフォーム機能(情報集約) ヒートマップによる異常イベント可視化イベントリストの表示

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (構成情報) 構成情報の検索リスト表示グラフ表示

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (監視データ) 構成情報

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (設定ファイル) 構成情報

運用レコメンドプラットフォーム機能(情報集約) 情報比較およびレポート機能保守運用作業における「次」を考えられる情報を提供

Core-api 構成情報 Neo4j ダッシュボード参照データシステム時系列データ InfluxDB
運用者コレクタ … Zabbix Git + rsync Fluentd 設定ファイル GitLab CE GW Kong 機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド … 運用レコメンドプラットフォーム概要 API実行蓄積分析設定ファイル構成情報リソース監視データログフィードバック運用レコメンドプラットフォーム

システムコレクタ … Zabbix Git + rsync Fluentd … 設定ファイル
構成情報リソース監視データログ運用レコメンドプラットフォーム概要(機械学習) Core-api API実行蓄積運用レコメンドプラットフォームダッシュボード参照運用者フィードバック機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド分析分析結果の参照分析に関するフィードバック構成情報 Neo4j データ時系列データ InfluxDB 設定ファイル GitLab CE 蓄積されたデータをもとに分析運用者からのフィードバックを受けて精度向上 GW Kong

正常パターン数値データ収集した運用情報から正常パターンを作成。正常パターンから外れた値を異常として検出。 (瞬間的な外れ値は検出しない) 運用レコメンドプラットフォーム機能(機械学習) 時系列データ異常検出(単体) 瞬間的な外れ値≠異常異常

運用レコメンドプラットフォーム機能(機械学習) 収集した運用情報から正常パターンを作成。正常パターンから外れた値を異常として検出。 (瞬間的な外れ値は検出しない) 時系列データ異常検出(単体) 正常パターン数値データフィードバックによる正常パターン更新異常検出異常検出
フィードバック

収集した運用情報より複数要素間の相関状態を作成相関が崩れることを異常として検知通信例：ネットワークのI/O 運用レコメンドプラットフォーム機能(機械学習) 時系列データ異常検出(複数) サーバAの通信量が増加すればサーバBの通信量も増加する = 正の相関
正常時サーバA サーバB サーバA Network output サーバB Network input

収集した運用情報より複数要素間の相関状態を作成相関が崩れることを異常として検知サーバA サーバB 通信運用レコメンドプラットフォーム機能(機械学習) 時系列データ異常検出(複数) 異常正常時異常時
サーバAの通信量が増加したのにサーバBの通信量が低下する = 相関の崩れ例：ネットワークのI/O サーバA Network output サーバB Network input

正常時異常検知運用レコメンドプラットフォーム機能(機械学習) 時系列データ異常検出(複数) 収集した運用情報より複数要素間の相関状態を作成相関が崩れることを異常として検知相関パターン色の濃淡＝相関の大きさ赤枠の部分の相関が変化

運用レコメンドプラットフォーム機能(機械学習) ログキーワード分析ログに含まれるキーワードを分析異常時に頻出しているような不審なキーワードを検出し、運用者に提示通知キーワード一覧不審と思われるキーワード

運用レコメンドプラットフォーム機能(機械学習) 運用作業レコメンド過去の障害情報や対応履歴などをもとに次に実施したほうが良いと思われる行動を提示

まとめ運用保守作業をより改善するために情報集約を行い、機械学習により分析することで異常状態を検出、運用作業をレコメンドするプラットフォームを開発中お願い - 試験導入 - 改善のご意見システムの情報や監視情報を有効に活用して運用に役立てたい方
(例：単なる閾値ベースの監視では気付けない異常状態を早期検出したい等) - 開発のご協力まとめ・お願いこんな機能やこんな画面があったらより運用に役立つとか使ってみたい等問い合わせ宛先 [email protected]

情報集約×機械学習で目指す「次」がわかる運用 / OSC2019_Tokyo_Enterprise

情報集約×機械学習で目指す「次」がわかる運用 / OSC2019_Tokyo_Enterprise

TakuyaNaito

Other Decks in Technology

Featured

Transcript

情報集約 x 機械学習で目指す「次」がわかる運用 TIS株式会社内藤拓也 2019/10/10 オープンソースカンファレンス 2019

自己紹介内藤拓也 TIS株式会社 IT基盤エンジニアリング第1部氏名：所属：業務：～5月インフラ構築・移行・保守運用等

1. 保守運用作業をもっとうまくやるには 2. 運用レコメンドプラットフォーム紹介 3. まとめとお願いアジェンダ

保守運用作業もっとうまくやるには (自動化、効率化、脱属人化…)

- アップデート - 設定変更 - 障害調査・対応 … - ツールの導入 -

保守運用作業をもっとうまくやるには障害調査・対応を例に考えてみる障害特定 - リソース確認 - プロセス確認 - ログ確認 -

保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

保守運用作業をもっとうまくやるには - システム構成 - ログ - リソース状態 - 設定ファイル -

2. 運用レコメンドプラットフォーム紹介

運用レコメンドプラットフォーム概要 OSSで構成。コンテナ上で稼働し、APIを介してシステムの情報収集、分析を行うマイクロサービス(開発中) Backend Frontend Data Analytics ・InfluxDB Database ・Neo4j

Core-api 構成情報 Neo4j ダッシュボード参照データシステム時系列データ InfluxDB

ダッシュボード参照運用者機械学習時系列データ異常検出 (単体・複数) ログキーワード分析運用作業レコメンド運用レコメンドプラットフォーム概要(情報集約)

システムコレクタ … Zabbix Git + rsync Fluentd … 設定ファイル

ダッシュボード (イベントデータ) 運用レコメンドプラットフォーム機能(情報集約) ヒートマップによる異常イベント可視化イベントリストの表示

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (構成情報) 構成情報の検索リスト表示グラフ表示

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (監視データ) 構成情報

運用レコメンドプラットフォーム機能(情報集約) ダッシュボード (設定ファイル) 構成情報

運用レコメンドプラットフォーム機能(情報集約) 情報比較およびレポート機能保守運用作業における「次」を考えられる情報を提供

Core-api 構成情報 Neo4j ダッシュボード参照データシステム時系列データ InfluxDB

システムコレクタ … Zabbix Git + rsync Fluentd … 設定ファイル

収集した運用情報より複数要素間の相関状態を作成相関が崩れることを異常として検知サーバA サーバB 通信運用レコメンドプラットフォーム機能(機械学習) 時系列データ異常検出(複数) 異常正常時異常時

運用レコメンドプラットフォーム機能(機械学習) ログキーワード分析ログに含まれるキーワードを分析異常時に頻出しているような不審なキーワードを検出し、運用者に提示通知キーワード一覧不審と思われるキーワード

運用レコメンドプラットフォーム機能(機械学習) 運用作業レコメンド過去の障害情報や対応履歴などをもとに次に実施したほうが良いと思われる行動を提示