なれる!Azure Stack Operator

A6eac912214bea58f22ef8d33137eca1?s=47 kongou-ae
October 24, 2018

なれる!Azure Stack Operator

A6eac912214bea58f22ef8d33137eca1?s=128

kongou-ae

October 24, 2018
Tweet

Transcript

  1. なれる︕Azure Stack Operator 1907 Update

  2. ⾃⼰紹介 ・ 松本雄介 ・ SIer 勤務 ・ Azure と Azure

    Stack のプリセールス・設計・構築・技術評価 ・ IaaS とハイブリッドネットワークが得意分野 ・ Azure Stack integrated system を導⼊して、約2年運⽤中 ・ Microsoft MVP for Microsoft Azure (2019/5~)
  3. アジェンダ ・ Azure Stack Operator とは ・ Azure Stack の運⽤

    ・ キャパシティ管理 ・ 監視 ・ 障害対応 ・ バックアップ ・ パッチ適⽤・アップデート
  4. 本セッションのゴール ・ Azure Stack Operator という役割を知る ・ Azure Stack Operator

    の仕事を知る
  5. 前提条件 ・ Dell EMC Cloud for Microsoft Azure Stack 14G

    ・ 2019/07時点での実装・情報・運⽤経験 ・ IaaS までの話。PaaS の運⽤は対象外
  6. その他 ・ 本セッションは個⼈的なものであり、所属組織の⽴場や意⾒を代表す るものではありません

  7. Azure Stack Operator とは

  8. そもそも Azure Stack とは Azure Stack とは ・ 誤︓Hyper-V ベースの仮想基盤

    ・ 正︓アプライアンス型 Azure
  9. そもそも Azure Stack とは Azure Stack とは ・ 誤︓Hyper-V ベースの仮想基盤

    ・ 正︓アプライアンス型 Azure Azure Stack の運⽤⽅法 ・ 誤︓Windows Server として運⽤する ・ 正︓アプライアンスのように運⽤する
  10. Azure Stack の構成要素

  11. Azure Stack の構成要素

  12. Azure Stack の構成要素

  13. Azure Stack の構成要素

  14. Azure Stack の構成要素

  15. Azure Stack の構成要素

  16. Azure Stack の構成要素

  17. Azure Stack の構成要素 Windows Server ベースの仮想基盤とは全く違う

  18. 新しい役割 - Azure Stack Operator - https://azure.microsoft.com/en-us/blog/why-your-team-needs-an-azure-stack-operator/

  19. Azure Stack Operator の仕事 Azure Stack というパブリッククラウドを運⽤管理する ・ キャパシティ管理 ・

    監視 ・ 障害対応 ・ バックアップ ・ パッチ適⽤・アップデート https://azure.microsoft.com/en-us/blog/operating-azure-stack/
  20. Azure Stack 運⽤その1 キャパシティ管理

  21. その1︓キャパシティ管理 Microsoft は Azure のキャパシティを管理している ・ パブリッククラウドのリソースは有限 ・ 万⼈に無限のリソースを使わせてはならない ・

    利⽤者の使えるリソースに制限をかける
  22. その1︓キャパシティ管理 Azure Stack のリソースも有限 ・ Host Node のリソースには限りがある ・ 利⽤者に無限のリソースを使わせてはならない

    ・ 利⽤者の使えるリソースに制限をかける
  23. その1︓キャパシティ管理 リソースに制限をかける ・ Quota︓リソースプロバイダごとの制限 ・ Plan︓複数の制限をまとめる ・ Offer︓利⽤者向けに Plan をまとめる

    ・ User Subscription︓ユーザと Offer を紐づける https://docs.microsoft.com/ja-jp/azure/azure-stack/azure-stack-plan-offer-quota-overview
  24. その1︓キャパシティ管理 Quota リソースプロバイダごとに制限を決める https://docs.microsoft.com/ja-jp/azure/azure-stack/azure-stack-quota-types

  25. その1︓キャパシティ管理 Plan リソースプロバイダごとに作成した制限(=Quota)を⼀つにまとめる

  26. その1︓キャパシティ管理 Offer ・ 利⽤者向けに Plan をまとめる ・ 誰でも使える Public Offer

    と、利⽤者を指定する Private Offer がある
  27. その1︓キャパシティ管理 Azure の PAYG サブスクリプションは Public Offer

  28. その1︓キャパシティ管理 User Subscription ・ Azure Active Directory のユーザを Offer と紐づける

    ・ 紐づけた AAD のユーザでユーザ向けポータルにログインすると、サブスク リプションがある
  29. その1︓キャパシティ管理 もしリソースを使いきったら︖ ・ 既存の Azure Stack にサーバを追加する ・ 16台の上限まではサーバを追加できる

  30. その1︓キャパシティ管理 もし16台まで増設してしまったら︖ ・ 新しい Azure Stack ⼀式を買う。ただし、既存の Azure Stack と

    は別環境になってしまう ・ 既存の Azure Stack に別の Azure Stack ⼀式を追加する機能 (Multi scale unit)が開発中 https://azure.microsoft.com/en-us/roadmap/azure-stack-integrated-systems-support-for-multiple-scale-units/
  31. Azure Stack 運⽤その2 監視

  32. その2︓監視 Azure Stack というアプリケーションが監視する範囲

  33. その2︓監視 OEM ベンダのソフトウェアが監視する範囲

  34. その2︓監視 Azure Stack が、⾃分⾃⾝を監視する ・ Health Resource Provider が、各コンポーネントのイベントとメトリ クス、ログをチェックしている

    エージェント型監視は無理 ・ Internals are internal. ・ サーバ内部にアクセスできないので、エージェントをインストールできない https://sec.ch9.ms/sessions/ignite/2016/BRK3115.pptx
  35. その2︓監視 監視結果は API で公開される ・ Alerts、Region Health、Resource Healths、Resource Provider State

    ・ 外部に通知する機能(メールや Trap など)はない ・ 監視結果をポータルで⾒られる。けど、24/365⽬視監視は・・・
  36. その2︓監視 外部から API を叩いて監視する仕組みが別途必要 ・ ⼀般公開されているものは3つ ・ SCOM Management Pack

    ・ Nagios ・ Log Analytics ・ Microsoft は SCOM MP を継続的にメンテ中 ・ Zabbix はまだない模様︖
  37. その2︓監視 OEM ベンダのソフトウェアがハードウェアを監視する ・ ハードウェアベンダのツールでサーバ・ネットワーク機器を監視する ・ 従来オンプレ運⽤と同じ世界 他の監視サーバを使ってもよい ・ HLH

    はシングル。監視がシングル︖ ・ 従来のオンプレ運⽤と同じ世界=使い慣れた監視サーバで監視
  38. Azure Stack 運⽤その3 障害対応

  39. その3︓障害対応 アラートメッセージの修復⽅法に従う ・ アラートメッセージに修復⽅法(REMEDIATION)が書いてある ・ 基本的には「ログ取ってサポートに送れ」 ・ なぜなら、Internals are internal

    ・ 原則、⾃分で直せません
  40. その3︓障害対応 ソフトウェアなトラブル=Microsoft が対応 ・ Azure ポータルからサポートをあげる ・ サポート担当からログ取得の依頼を受ける ・ ログを取得してアップロードする

    ・ 原因を特定したサポート担当に直してもらう
  41. その3︓障害対応 ハードウェアなトラブル=OEM ベンダが対応 ・ HDD が壊れた、電源が壊れた といったケース ・ 基本的には、いわゆるハードウェア保守対応と同じ

  42. その3︓障害対応 Azureポータルからサポートをあげる

  43. その3︓障害対応 サポート担当からログの提供を依頼される

  44. その3︓障害対応 ポータルからログをアップロードする ポータルのログアップロード機能を利⽤して、Azure Stack からサポートの Blob にログを直接アップロード

  45. その3︓障害対応 ERCS からログをアップロードする ・ ERCS 上で Get-AzureStackLog を実⾏する。オプションが複雑 ・ ERCS_AzureStackLogs.ps1

    という便利スクリプトを使うと、GUI で簡単にログをとれる ・ 数 GB のログファイルをサポートチームの Blob にアップロードする
  46. デモ︓ログ取り

  47. その3︓障害対応 サポート担当に直してもらう ・ Internals are internal. 内部を⾃由に操作できるのは Microsoft のみ ・

    サポート担当と画⾯共有したうえで、リモートでサポート担当に操作して もらう ・ リモートでサポート担当に指⽰してもらいながら⾃分で操作する
  48. その3︓障害対応 サポート担当に直してもらう ・ 普段の ERCS は PowerShell が制限されている(Privileged EndPoint) ・

    Internals are internal ・ 全てのコマンドが実⾏できると、利⽤者に内部構造をいじられる ・ Just Enough Administrator を利⽤して、利⽤できるコマンドを制 限している https://docs.microsoft.com/lt-lt/azure/azure-stack/azure-stack-privileged-endpoint
  49. デモ︓Privileged EndPoint

  50. その3︓障害対応 ERCS の真の⼒を開放する ・ 制限されたコマンドだけでは復旧作業ができない ・ Get-SupportSessionToken を実⾏して Token を⽣成する

    ・ ⽣成された Token を Teams のチャットで サポート担当に渡す
  51. その3︓障害対応 ERCS の真の⼒を開放する ・ サポート担当が制限解除の Token をくれる ・ Unlock-SupportSession の引数に

    Token を⼊⼒する。 ・ ERCS が真の姿を現す。通常の PowerShell を使って復旧作業
  52. その3︓障害対応 ⾃⼰診断︓Test-AzureStack ・ コマンド1つで Azure Stack の状況を診断できる ・ ⼀連の項⽬を網羅的に⾃⼰診断 ・

    診断結果を視覚的にわかりやすく表⽰ ・ FAIL がでたらピンチ https://docs.microsoft.com/ja-jp/azure/azure-stack/azure-stack-diagnostic-test
  53. その3︓障害対応 診断に失敗しても Test-AzureStack 診断に失敗すると、-Repair オプションを利⽤した修復をお勧めされる

  54. その3︓障害対応 -Repair すると、修復してくれる 意図せず停⽌した Infrastructure Role Instance を起動してくれた 図

  55. その3︓障害対応 ⾃⼰診断︓Azure Stack Validation Summary ・ Test-AzureStack の詳細がまとまった HTML ファイル

    ・ 何を⾃⼰診断しているのか、何が失敗したのかが分かる ・ ポータルからは⾒ることのできない 低レイヤな情報が満載。 ちょっと楽しい
  56. Azure Stack 運⽤その4 バックアップ

  57. その4︓バックアップ Azure Stackの全損に備えてバックアップを取る ・ 保存先は Azure Stack 外部のファイルサーバ ・ バックアップのサイズが認証⽅式によって異なる

    ・ ADFS 20GB、AAD 1GB ・ スケジュールバックアップと世代管理が可能 ・ 証明書でバックアップファイルを暗号化 ・ ⾃⼰証明書でもよい https://docs.microsoft.com/en-us/azure/azure-stack/azure-stack-backup-enable-backup-console
  58. その4︓バックアップ バックアップの対象 ・ バックアップには Azure Stack の構成情報のみが保存される ・ Azure Stack

    上の Azure で作ったリソースやデータは、Azure Stack のバックアップに含まれない ・ Azure Stack 上の Azure で作ったリソースとデータを保護する責任 は利⽤者にある
  59. その4︓バックアップ バックアップの対象 ・ バックアップの範囲を利⽤者に説明すること ・ ユーザ側はサブスクリプション、RBAC、KeyVaultだけが戻る ・ 上記以外は全滅の模様 https://docs.microsoft.com/en-us/azure/azure-stack/azure-stack-backup-recover-data#data-in-backups

  60. Azure Stack 運⽤その5 パッチ適⽤・アップデート

  61. その5︓パッチ適⽤・アップデート

  62. その5︓パッチ適⽤・アップデート

  63. その5︓パッチ適⽤・アップデート

  64. その5︓パッチ適⽤・アップデート

  65. その5︓パッチ適⽤・アップデート Microsoft 提供 Azure Stack Update ・ 1か⽉に1回、アップデートがリリースされる ・ Windows

    Update の更新プログラム(該当する KB だけ) ・ Azure Stack というアプリケーションの更新パッケージ ・ サポートされるのは2つ前のバージョンまで ・ アップデートするしかない ・ 累積アップデートがないので、順番に適⽤する https://docs.microsoft.com/ja-jp/azure/azure-stack/azure-stack-servicing-policy#keep-your-system-under-support
  66. その5︓パッチ適⽤・アップデート Full vs Express ・ Full ・ Windows Update を含む

    Update ・ Host Node の再起動を伴うため、適⽤時間が⻑い ・ Express ・ Windows Update を含まない Update ・ Host Node の再起動を伴わず、Full よりも適⽤時間が短い https://docs.microsoft.com/ja-jp/azure-stack/operator/azure-stack-updates#plan-for-updates
  67. その5︓パッチ適⽤・アップデート アップデート作業は簡単 ・ Azure Stack ⾃⾝がアップデートと Hotfix の有無をチェック ・ もしアップデートか

    Hotfix がリリースされた場合、Azure Stack ⾃⾝ が必要なファイルをダウンロードする ・ ボタンをぽちっとな。終わるまで待つ
  68. その5︓パッチ適⽤・アップデート アップデート作業は全⾃動 ・ ⼤量のステップを⾃動的に順番に ・ 複数台のコンポーネントは1台ずつアップデートされる ・ 利⽤者が作成した Virtual Machine

    はライブマイグレーションされる ・ 作業は楽。だたし、所要時間が異様に⻑い ・ リリースノートで想定所要時間がアナウンスされる
  69. その5︓パッチ適⽤・アップデート アップデートに失敗したら ・ アップデート中に異常が起きると、そのステップで⼀旦停⽌ ・ サポートと協⼒して問題を解決 ・ 問題を解決できたらアップデートを Resume する。⼀時停⽌したステッ

    プから再開 ・ 切り戻しなしの⽚道切符
  70. その5︓パッチ適⽤・アップデート

  71. その5︓パッチ適⽤・アップデート OEM ベンダ提供 Azure Stack Update ・ OEMベンダのサポートページでアップデート⽤のパッケージが配信される ・ サーバのドライバが含まれている

    ・ パッケージをダウンロードして、Azure Stack上のストレージアカウントに アップロードする ・ ボタンをぽちっとな。終わるまで待つ ・ Host Node のイメージを作り直す場合、それなりに時間がかかる
  72. その5︓パッチ適⽤・アップデート

  73. その5︓パッチ適⽤・アップデート OEM ベンダ提供 Hardware/Software Update ・ OEM ベンダの仕組みに従って対応。ベンダごとに⼿順が違う。簡単な ⼿順でアップデートを実施できるOEMベンダがおすすめ ・

    Host Node と HLH のファームウェアを更新する ・ HLH のドライバを更新する ・ HLH と HW 運⽤管理 VM に Windows Update を適⽤する ・ HW運⽤管理ソフトウェアを更新する ・ スイッチのファームウェアを更新する
  74. まとめ

  75. まとめ ・ Azure Stack Operator とは ・ Azure Stack の運⽤

    ・ キャパシティ管理 ・ 監視 ・ 障害対応 ・ バックアップ ・ パッチ適⽤・アップデート
  76. Ask the speaker! ・ Azure Stack の QA セッションに参加します ・

    お気軽にご質問ください︕