Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[VMware EVOLVE] 運用作業の80%自動化を実現した「ニフクラ」の取り組みと目指す...

[VMware EVOLVE] 運用作業の80%自動化を実現した「ニフクラ」の取り組みと目指す姿について/ Operation automation on NIFCLOUD

VMware EVOLVEの講演資料
https://vm-event.jp/evolve/sess/detail/352

More Decks by 浜中 慶/ HAMANAKA, Kei

Other Decks in Technology

Transcript

  1. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 自己紹介 浜中 慶 @kei_hamanaka

    富士通クラウドテクノロジーズ (株) クラウドインフラ本部 副本部長 自己紹介: ・国産クラウドサービス「ニフクラ」の企画/運用を担当 ・サービス拡大に伴い運用課題に直面したことで12年頃から本格的に運用自動化を推進 ・現在ではインフラ運用に課題を抱える企業様(製造、金融業、流通業様など)向けに 講演を多数実施 2
  2. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 会社紹介 3 社 名

    富士通クラウドテクノロジーズ株式会社 (FUJITSU CLOUD TECHNOLOGIES LIMITED) 事業概要 クラウド事業、データサイエンス事業 所 在 地 〒104-0061 東京都中央区銀座七丁目16番12号 G-7ビルディング 設立 1986年2月4日 資本金 1億円(富士通株式会社100%出資) 社員数 249名(2018年12月31日現在)
  3. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 会社紹介 ◼富士通クラウドテクノロジーズは、クラウドサービス「ニフクラ」 (2010年1月提供開始)を主軸とするテクノロジー企業です。 4

    富士通クラウド テクノロジーズ(株) ニフティ(株) 2017.04 分社化 1986.02 設立 2017.10 「ニフクラ」へブランドリニューアル
  4. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラとは 5 Point1 柔軟性

    Point2 高性能 Point3 高信頼 ⚫ VMware のテクノロジーをベースとしたインフラ基盤 ⚫ サービス提供から2019年で10年目 ⚫ ニフクラ利用は国産クラウド最大級 7,000 件を突破 ⚫ リードタイムはわずか5分 ⚫ 初期費用無料・従量課金(1時間4円から)で利用可能 ⚫ 基本性能の高さが特長。高いパフォーマンスを実現 (CPU・ディスク・ネットワーク) ⚫ サーバー1台から月間99.99%の稼動率を保証(SLA) ⚫ 自動フェイルオーバー(HA)機能を標準実装 ⚫ システム構成は単一障害ポイントなし、メンテナンス原則無停止
  5. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED なぜ、運用自動化なのか 8 ⚫ なぜ「運用自動化」の話をするのか?

    ➡ ニフクラの強みの源泉 十分な稼働実績 (稼働実績の向上) 新機能への 積極投資 リソース 増強の高速化 エンジニアの 士気向上 運用自動化
  6. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 時代の流れ 9 ⚫ サービス提供方法が売り切り型から、サブスクリプション型へ

    →リリース後のサービス改善が売上向上のポイントに DevOps サブスクリプション アジャイル開発 リーンスタートアップ SoE CI/CD SaaS これらの手法/考え方/ビジネス形式を技術的な面から支えるのが、 「運用自動化」
  7. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラの運用自動化における歴史と規模 10 • ニフクラは12年頃より本格的にOSSを活用した

    運用自動化に取り組んできました • 7,000案件、数千の物理サーバー、数万の仮想サー バーが稼働するvSphere基盤を、40名弱のインフ ラエンジニア組織で支えています 7,000案件 40名
  8. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 運用自動化に取り組み始めた経緯 ◼2012年当時のビジネス状況 • サービス立ち上げから2年経過

    • クラウド普及の波の到来に伴いビジネス・サービス規模が急拡大 • 上記伴いメンバーも増加 ◼インフラ組織の状況、雰囲気 • 新規のサービス開発がリリース時よりも停滞するようになりフラストレーションが高まっている • 「リリース時より仕事がし辛くなっている」、「仕事が楽しくないんです」 12
  9. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ◼課題分析 • リリース後2年経ち、運用作業が増加の一途 •

    オペミスによる再発防止策、ダブルチェック、特殊運用…組織全体の疲弊感を高めていた 当時の分析結果 13 「運用」を起点に組織改善を行う 運用が変わればサービスも良くなる 「手動運用」を負の サイクルの起点と仮定 運用増加 手動運用 運用ミス お詫び対応 資料増加 特殊運用
  10. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 運用自動化に取り組む際にまず行ったこと 14 API標準搭載が必須条件 業務フロー/インフラ構成を自動化中心スタイルへ変更

    クラウド基盤の選定基準 API 金太郎飴型のインフラ構成 インフラ構成標準化 一度やった作業は自動化が原則 マインドセットの変更 自動化に適した環境を構築するスタイルを構築
  11. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED コーディング ( pyvmomi, PowerCLI,etc

    ) コードレビュー Jenkins 登録 利用開始 エンハンス コード共有会 (毎月1回) Gitlab コミット 15 Web開発フローをインフラ運用に導入 ノウハウのコード化と共有・再利用 運用ノウハウのコード化
  12. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラを支えるOSSツール群 用途 Zabbix 性能監視ツール

    Jenkins GitLab CI CIツール、定型作業の簡易・自動化 GitLab リポジトリ管理・属人的なスクリプトの汎化 Redmine インシデント・メンテナンスフローの蓄積 Fluentd ログ収集・転送・集約 Elastic search ログの全文検索 Kibana ログ、リソースの可視化 Influx DB 時系列データ用のDB Grafana 性能の可視化 Ansible 設定の自動化 php IPAM IP管理の汎化 16
  13. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 機器故障の予兆検知 20 機器故障の予兆検知と仮想サーバーの事前退避を実現 ハードの予兆アラートを検知

    自動的に他サーバへvMotion メンテナンス実施 正常性確認スクリプトの実行 クラスタへの再組み込み 一次対応時の自動化により顧客影響を防止
  14. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 予防対応による効果 21 0 2

    4 6 8 10 12 13/10 13/11 13/12 14/01 14/02 14/03 14/04 14/05 14/06 14/07 14/08 14/09 14/10 14/11 14/12 ハード障害件数 ハード監視による予防交換件数 HW故障時の自動分散の開始 導入前 導入後 物理サーバ故障によるユーザー影響(VM再起動)を40%以下へ削減
  15. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 自動化が何をもたらすのか 運用工数が規模に比例しない ⇒ 1

    台でも 1,000 台でもオペレーションは同じ 1 回 スピードアップ ⇒ 作業が自動化される = 1 タスク当たりの時間短縮 属人化の防止 ⇒ Web ブラウザやスクリプトから実行可能(誰がやっても同じ結果) 運用増加 運用自動化 規模に依存 しない運用 新価値創出 (新サービス開 発など) 価値創造のための 作業に注力可能 運用作業を「高水準」 かつ「低コスト」化 22
  16. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 運用自動化の効果 ▪構築系 - ESXi

    への一括設定 - ESXi の一括テスト ▪運用系 - 高負荷 VM の特定 - Cluster 別負荷状況 ▪障害対応系 - HA 成功判定 - VM 自動抜き出し - vSphere各種ログの抽出 100以上の運用作業を コード化(自動化) ▪構築系 - vCenter インストール - ESXi インストール ▪運用系 - 物理ホスト本番投入 ▪障害対応系 - イレギュラー障害 - VMware 未知のバグ対応 23 運用の 80%を 自動化済み
  17. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED NIFCLOUD 他社平均 ※運用作業別の運用レベル FJCT(赤)と他社平均(青)の比較

    第三者運用プロセス評価でも高い運用品質を評価されました 第三者認証 24
  18. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 組織機動力の向上へ – ChatOpsへの取り組み Chatインタフェースへの統一による標準化

    (人とシステムがChatへ参加し、BOTが自動化支援) 情報の見える化・一元化・検索性の向上 (全ての情報がメタタグ付き文字情報として蓄積) API API API API API 25
  19. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ChatOpsの実践例 26 NIFCLOUD #pjct_nifcloud

    監視システムと連動したBotがシステムの異常を検知し て自動的にステータス情報をダンプ Botが、対処後のシステムの最新の ステータス情報を取得 Botが異常のあったシステムに対して切り離しを自動実行 →プロセスのリスタートと組込み処理を実行 Botの自動リカバリーに対して、同一のタイムライン 上で エンジニアが原因究明を開始 一連の対応履歴をChatOps上で一元的に管理 ◼ 既知障害の一次対応
  20. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ChatOpsの実践例 27 ◼ パフォーマンスアラートの通報

    ◼ チケット処理の催促を自動化 ◼ SSL証明書の有効期限管理の自動化 ◼ バージョンを指定してデプロイ
  21. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 自動化から自律化、そしてAIOpsへ • 認知・判断+操作=AIOps •

    優秀なインフラエンジニアを模倣 • 特化AIの集合体 • 振る舞いからの障害未然検出 • 障害の予兆を察知して事前対処 • オートリカバリー 出典: Wikipedia “DNA” http://en.wikipedia.org/wiki/DNA 運用の「強み」を活かして、更なるサービス価値向上 29 ⚫ ゴール:自立アルゴリズムの実装 ⚫ 発展:未知障害の検出
  22. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 認知・判断を実現するためのログデータ基盤 ◼ 大規模なログ収集に耐えられる基盤 •

    (1)500GB/dayのログ長期保存 • (2)リアルタイム検索、可視化、 分析 • 異常パターンの学習、兆候、未知なる事象の検知 • 富士通研究所との共同研究 ログ検索 少ない情報からドリルダウン式にログを調査 ログ可視化 ホスト単位のリソースヒートマップによる偏り可視化 30
  23. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 成果例(1):仮想サーバのプロアクティブ分散配置 ◼仮想サーバ同士の相関関係を分析 ◼相関関係の高い仮想マシンをプロアクティブに分散配置 •

    弊社メリット:インフラ利用効率向上≒コストダウン • 顧客提供価値:高耐障害性・高性能性を提供 32 ユーザID: BCTXXXXX CPU利用率: VM1 VM2 VM3 VM4 VM5 VM6 VM7 VM8 VM9 相関が高い VMの集合: VM1 VM8 VM2 VM4 VM6 VM3 VM7 VM5 VM9 同じホストの VMの集合: VM1 VM8 VM2 VM4 VM6 VM3 VM7 VM5 VM9 VM4かVM6を、VM2が 乗っているホストを避 けつつ、別のホストへ 移動 動作概念
  24. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 成果例(2):仮想サーバの異常性判断 ◼ インフラ側のログデータから仮想サーバの正常性を定義 •

    仮想サーバ個別に動作特性を加味した正常値を数値モデル化 • OS以上は顧客管理というIaaS実装に則したモデル設定 ◼ 定義した数値と実体の差分を分析し正常性を判定 • 弊社メリット:インフラ利用率の予兆検知 • 顧客提供価値:サポート品質向上 CPU負荷 標準偏差 動作概念 time cpu usage 異常値 実測値 正常な範囲 モデル差分を分析する事で、 「異常である」事をいち早く 顧客へ共有 33
  25. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 成果例(2):仮想サーバの異常性判断 ◼正常時のデータ(green) 00:00 24:00

    12:00 18:00 6:00 00:00 24:00 12:00 18:00 6:00 cpu usage cpu usage ◼ 異常時のデータ(red) 34 ほぼ全てのデータが正常な範囲内に収まっている。 飛び跳ねた挙動も、定義している数値モデルから正常 (いつもの動作傾向)と判断出来る。 異常値が多く、明らかにいつもと動作傾向が異 なると分かる。
  26. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED 運用自動化 導入の難しさ 36 ⚫

    「社内インフラを運用自動化したいのでノウハウを教えてほしい」 と、弊社に来社される方も多いですが、困難なケースも多いです 最も多い声: 「自動化の進め方やメリットは理解できたが、サイロ化された インフラ環境では、それぞれに個別に自動化を行う必要があり、 結果的にROIにあわない」 サイロ化されたインフラ構成 ニフクラ 統一されたルール にて環境を構成し ているため、運用 自動化のROIが高 い
  27. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ・標準化されたインフラ上で OS/ミドルウェアの運用自動化 ・CI/CDへ取り組みなど、攻めの運用スタイルへ OS層以上

    (VM/ミドル/ アプリ) 進め方の一例 37 ⚫ 「インフラ」をOS以上/以下で分解し、自動化のフォーカスポイントを局所化 ⚫ 標準化されたインフラ上でROIが出やすい部分の自動化からスタート OS層以下 (仮想化基盤/ ハードウェア) ハイブリッド利用 段階的なクラウド移行 API
  28. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED [PR] ニフクラ プライベートリージョン お客様

    データセンター Private Region 物理機器・仮想基盤 コントロールパネル ⚫ クラウド環境上でのリソースの払い出しや、 統合管理を実現するコントロールパネル機 能を提供いたします。 各種サービス サーバー ディスク ネットワークサービス 提供サービス ⚫ パブリッククラウドのニフクラと同等の各 サービスをお客様専用のクラウド環境にて ご利用いただけます。 ⚫ 基盤システムを構成するハードウェアおよ びソフトウェアの構築と、基盤システムの 安定稼働を目的とした運用を包括して提供 いたします。 RDB NAS ロードバランサー 38 ⚫ “お客様専用のニフクラ”を、ご指定のデータセンターに設置するサービスです。
  29. Copyright 2019 FUJITSU CLOUD TECHNOLOGIES LIMITED ぜひ公演後にお声掛けください ◼ ニフクラ プライベートリージョンについて知りたい

    ◼ 会社の上層部向けに運用自動化の話をしてほしい ◼ 一緒に国産クラウドサービスを作りたい(絶賛採用中です) 39 浜中 慶 <[email protected]> @kei_hamanaka