Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Red Hatの運用高度化ソリューション

Red Hatの運用高度化ソリューション

Ansibleの利用により、インフラ管理の実作業の自動化が進んでいる一方で、運用現場ではまだまだ人による作業や調整事項が多く存在し、現場は人手不足が続いています。
このソリューションは、運用現場の人の仕事をシステム化し、運用の高度化(=自動化・効率化・インテリジェント化)を実現することで、運用現場の働き方を根本から改善します。

Erina Matsuda

July 13, 2020
Tweet

More Decks by Erina Matsuda

Other Decks in Technology

Transcript

  1. Copyright Red Hat K.K. task
 task
 task
 output
 output
 output


    判断する仕事 調整する仕事 実作業する仕事 30
 30
 20
 task
 task
 task
 判断する仕事 調整する仕事 実作業する仕事 予定外の仕事 30
 30
 20
 40
 運用高度化ソリューションの目的 task
 task
 100のスルー プット 100の仕事 100の成果 人の頑張りで 対処 予定外の仕事 判断ミス 調整コスト増加 作業ミス スループット
 の低下
 悪循環による 組織の疲弊 この状態が続くと・・・ メンバーの予期 せぬ離脱 更にスループッ ト悪化 本来の業務に も支障 改善などの前 向きな活動に 取り組めない 組織崩壊の サイクル 負のスパイラルを排除し、組織の崩壊を 防止することで、健全な働き方を実現す ることが本ソリューションの目的です。 理 想 現 実 カイゼンする仕事 20
 2 運用現場の働き方を健全化
  2. Copyright Red Hat K.K. 運用高度化出来ていないことによるリスク 3 依頼者 or 監視ツール 対応者

    フィルタ・判 定/判断 対応フロー 作業 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼内容確認➔ 判定/判断 対応フローの実 施 作業の実施 報告・連絡 xx時間 xx時間 xx分 完了まで xx時間〜数 日 • 案件増加による超過勤 務 • 部門間調整等に時間が かかることによる対応 の遅れ • 属人化による品質のば らつき、作業漏れやミス の発生 • 改善等の新たな取り組 みに着手できない 人手によるリ スク 人手によるリスク
  3. Copyright Red Hat K.K. 運用高度化でリスクを最小化し業務形態を変革 4 フィルタ・判 定/判断 対応フロー 作業

    依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント 依頼・イベ ント システムによる判 定/判断 システムによるフ ロー実行 システムによる作 業実施 報告・連絡 数秒 数分〜 数分〜 完了まで 数分〜 リスクの 最小化 リスクを最小化 依頼者 or 監視ツール • 案件増加はシステム側 で対応可能 • 自動化により調整は最 小限になり、迅速な対 応が可能 • 品質の統一、漏れやミ スの削減 本来 人がやるべき業務に注力可能になる
  4. Copyright Red Hat K.K. 運用業務の以下のような課題が解決できます 5 • 各種申請に対する設計作業が属人化、ブラックボックス化 • 各人の経験値によるところが多く、作業品質にばらつきがある

    • 既存の監視設備のイベントフィルタ機能は柔軟性が低く、人によるフィル タリングが必須で、人的コストが削減できない • 作業者が部門を超えて存在しており、連携に手間がかかる。また、どこま で作業が進んでいるかの確認がしづらい • 作業手順の中に「判断の上連絡」、「xxフロー・手順を実施」など、多くの 分岐が存在し、人手により判断しているため、漏れやミスが無くならない • 作業量の急な増加に即座に対応できず、過重労働になりがち • 既存の監視設備は拡張性が低く、対象機器の追加等は膨大なライセンス 料が要求される • Ansibleを導入し、実作業は自動化されつつあるが、パラメータの設定や 監視業務については人の作業量が削減できていない。 運用高度化ソリューションが解決する課題
  5. Copyright Red Hat K.K. 運用高度化ソリューションの範囲 6 運用作業フロー例と対象範囲 作業自動化 テスト自動化 Ansibleによる自動化範囲

    パラメータ 作成 NW設計 ストレージ 設計 サーバー 設計 作業依頼 依頼受付 各種調整 参    照 検収 報告 本ソリューションの対象範囲 人による判断、設計、ワークフロー 人による判断、ワー クフロー 実作業だけでなく、前後の判断、調整、確認等の作業も自動化・効率化・インテリジェント化
  6. Copyright Red Hat K.K. イベント通知/ 作業依頼 集約/判定/設計 作業実行 管理・記録 3rd

    ITSMツール への連携 記録台帳への 記録 3rd ITSMツー ルへの連携 記録台帳への 記録 作業の 自動実行 手動 電話通知 手動 メール通知 手動 手順実施 テスト実施 手動運用フロー実施 Before After 人によるフィルタリング、対応判定、 各種設計作業 各種アラート、各種案件依頼 (サーバ新設、ネットワーク変 更、ストレージ増設等) 手動 エスカレーション・他 部署連携 各種タスクの自動実行、自動連携、自動通知 設計 作業 承認 作業 実施 自動 通知 検収 各種 自動通知 イベントフィルタリング、設計ノ ウハウの自動化、 対応アクションの決定等 データキューイング 作業量増加にも分散 対応 データ変換、 プロトコル変換、 システム連携 承認 運用高度化ソリューション適用例 7 各種監視ツールからのメッセージ、各種依頼事項等を同じ仕組みでまとめて管理。 インテリジェントに判断・設計を行い、実処理の実行までのフローを自動実行。
  7. Copyright Red Hat K.K. 課題へのアプローチ 判定/判断のルール化 人による判断をルール化して、統一することで、 運用作業の品質のばらつきを防ぐ。 ルールエンジンにより自動判断が可能になると ともに、ルールが可視化、ルール変更にも迅速

    対応可能になる。 フローの自動実行 業務プロセスを柔軟性をもって定型化。 作業漏れや連絡ミスを防ぐとともに、作業の追 跡および状況確認が容易になる。 またそれらのデータをもとに業務を見直し、 ルールを変更するなどの業務改善が可能にな る。 拡張性 データの増加に柔軟に対応可能なシステム構 成、また様々な接続先と連携可能なため、拡張 性にすぐれ、低コストで運用可能に。 運用高度化ソリューションのアプローチ 8
  8. Copyright Red Hat K.K. 9 参照用データ Alarm 生成 snmp イベント

    受信 アラーム DB 設備 フィルター イベント 受信 Alarm 情報付与 フィルター 情報付与 コリレーショ ン NW RCA 顧客/サービス 監視 GUI • ネットワーク・サーバー等の監視、根本原因解析をインテリジェンスに行う。 • 通信事業者の大規模なネットワーク・設備環境から発報される大量のイベントを Fuse/AMQで処理する。また、コンテナでイベント数に応じたスケールア ウトが柔軟に可能となる。 • ルールエンジンでイベントの種類や付加情報から多レイヤのイベントの相関関係と根本原因 (RCA)を見つけ出し、オペレーターが必要なアラームに集 約する。 コンテナプラットフォーム 運用高度化ソリューション適用例 根本原因解析(Root Cause Analysis)
  9. Copyright Red Hat K.K. 適用業務例 10 ①ITヘルプデスク業    ・アカウント登録・更新・削除対応の自動    ・共有フォルダ作成・更新・削除対応の自動化    ・ML作成・更新・削除対応の自動化

                  ・・・etc ②インフラ運用業務    ・バックアップ取得・リストア対応の自動化    ・集計業務の自動化    ・VPN払い出し・変更作業の自動化    ・セキュリティパッチ適用作業の自動化                     ・・・etc ③構築業務    ・HWセットアップ自動化    ・OSインストール自動化    ・セキュリティパッチ適用自動化                     ・・・etc ④保守業務    ・受付システムと連携した保守対応フローの自動化    ・保守機材のセットアップ自動化 ⑤プライベートクラウド運用業務    ・仮想マシン、NW、テナント払い出し業務の自動化    ・MW、SWインストール、設定の自動化    ・DBインスタンス払い出し、初期設定の自動化    ・FW、DNS払い出し作業の自動化    ・アンチウィルスソフトの払い出し自動化                  ・・・etc ⑥障害対応の自動化    ・HW障害検知後の保守サービスに必要なログの取得    ・プロセス、サービスの自動起動及び正常性確認    ・DBレコード不整合の修正手順    ・IDS/IPSからの通知➔FWでの通信遮断作業    ・定期バッチ処理のリカバリ対応                      ・・・etc ⑦運用業務関連     ・ServiceNow等のITSMツールへのインシデント管理業務の連携    ・イベント処理集計業務の自動化    ・自動化サービスのキャパシティ管理に必要なデータの自動取得➔集計    ・定期・不定期/定型作業の自動実行                     ・・・etc ⑧監視システム統合    ・一般的な複数監視システムのイベントの統合管理    ・パブリッククラウド監視サービスの統合管理    ・HWアプライアンスから送信されるメッセージ管理    ・監視SaaSサービスの統合管理                     ・・・etc