Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パートナー企業のテクニカルサポートエンジニアとして気になる、より良い AWS サポートの利活用...

kazzpapa3
October 12, 2024

パートナー企業のテクニカルサポートエンジニアとして気になる、より良い AWS サポートの利活用について

2024年10月12日に広島で開催された JAWS FESTA 2024 で登壇した際の資料です。
普段テクニカルサポートエンジニアとしてお問い合わせをいただく中で感じている「ちょっとした違和感」の観点からお話ししました。
AWS が言及しているドキュメントに触れ、何か発生した際に「即問い合わせ!」としなくても良い方法も紹介し、場合によっては「問い合わせをする必要すらない」と結論づけられるケースもあることをお話ししました。

kazzpapa3

October 12, 2024
Tweet

More Decks by kazzpapa3

Other Decks in Technology

Transcript

  1. 4 はじめまして 名前︓市野 和明(いちの かずあき) 所属︓株式会社サーバーワークス MS 部 テクニカルサポート1課 好きな

    AWS サービス︓ AWS CLI (テクサポとして) 嫌いな AWS サービス︓ Amazon FSx for Windows AWS Deadline Cloud 趣味︓ミクが好き、酒を飲む @kazzpapa3
  2. 5 はじめまして 名前︓市野 和明(いちの かずあき) 所属︓株式会社サーバーワークス MS 部 テクニカルサポート1課 好きな

    AWS サービス︓ AWS CLI (テクサポとして) 嫌いな AWS サービス︓ Amazon FSx for Windows AWS Deadline Cloud 趣味︓ミクが好き、酒を飲む @kazzpapa3 気になった⽅は お気軽に懇親会などで お声かけください
  3. 12 2024年、テクサポの中の⼈としていくつか登壇してみました 2024年4⽉ に福井で⾏われた JAWS-UG 北陸新幹線で 初めて賑やかし以外の登壇機会をいただき、普段の業務を通じて感じている 「もっとこうすればいいのに」と思っている観点から話をしました。 この登壇時の反応から、技術やセキュリティなど構築の側⾯の話が多い中、 より良いサポートを受けるための

    Tips などの裏話を聞いたことのない⽅が ⼀定数いらっしゃることに気づきました。 > 今朝から AWS につながりません。 > 障害など起きていないでしょうか。 ありえないだろう︖と思われるかもしれませんが、本質的に同様なお問い合わせ が、実は多いことを引き合いに、問い合わせ⽂⾯を組み⽴てる上で、相⼿が何を ⾒られるかや意識齟齬を防ぐための⽂書構成の観点について話をしました。 これは私が夢でみかけた⽂章 特定のお客様からいただいた⽂⾯そのままではない
  4. 14 それぞれがどの情報にアクセスできるか、知りうるか 対象 AWS 利⽤者 (お客様) (私の所属企業のような) APN パートナー企業 AWS

    テクニカルサポート 設計背景や実装 ◦ 知っている × 知り得ない × 知り得ない 障害や事象の影響度 ◦ 知っている × 知り得ない × 知り得ない AWS マネジメントコン ソール ◦ 閲覧可能 ◦ 閲覧可能 ※⼀部例外あり1 × 閲覧不可能(閲覧しない) AWS で構築されたサーバ 内部のデータやログ ◦ 閲覧可能 × 閲覧不可 (ログインしない) × 閲覧不可 (ログインしない) AWS 物理基盤 × 閲覧不可 × 閲覧不可 ◦ 閲覧可能 1. サービスのポータルや操作画⾯の閲覧のために、IAM Identity Center によるユーザー管理となっているサービスの場合、その発⽣事象の閲覧ができない AWS サービスもある
  5. 15 それぞれがどの情報にアクセスできるか、知りうるか 対象 AWS 利⽤者 (お客様) (私の所属企業のような) APN パートナー企業 AWS

    テクニカルサポート 設計背景や実装 ◦ 知っている × 知り得ない × 知り得ない 障害や事象の影響度 ◦ 知っている × 知り得ない × 知り得ない AWS マネジメントコン ソール ◦ 閲覧可能 ◦ 閲覧可能 ※⼀部例外あり1 × 閲覧不可能(閲覧しない) AWS で構築されたサーバ 内部のデータやログ ◦ 閲覧可能 × 閲覧不可 (ログインしない) × 閲覧不可 (ログインしない) AWS 物理基盤 × 閲覧不可 × 閲覧不可 ◦ 閲覧可能 1. サービスのポータルや操作画⾯の閲覧のために、IAM Identity Center によるユーザー管理となっているサービスの場合、その発⽣事象の閲覧ができない AWS サービスもある
  6. 16 解決スピードを上げるには︖ AWS Support として顧客に望むことはすでに公式⽂書に書いてある 少なくとも AWS に対して問い合わせをするロールの⼈は、まずは⽬を通しておくべき 技術的なお問い合わせに関するガイドライン https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines

    問い合わせ⽂章は 5W2H を意識する 担当しているプロジェクトの全容について、 簡単なモノで良いので、説明できる資料があればベター 複数のアカウントを Transit Gateway などで連携させた、⼤きいネットワーク空間がある マイクロサービスアーキテクチャで登場⼈物(サービス)が多い など 結局、急がば回れ
  7. 17 JAWS-UG 北陸新幹線での登壇のまとめ Ø AWS が公開しているドキュメント [1] を紹介し、 AWS サポートからの回答をより適切に得たり、解決スピードを上げるために

    より良い問い合わせ⽂⾯を組み⽴てる際の⽂書構成や記載内容について 問い合わせ⽂⾯にもう⼀⼯夫できそうな観点からお話ししました [2] Ø [1] AWS プレミアムサポート / 技術的なお問い合わせに関するガイドライン https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/ Ø [2] AWS パートナー企業でテクニカルサポートに従事して2年経ったので思うところをまとめてみた https://speakerdeck.com/kazzpapa3/aws-patonaqi-ye-detekunikarusapotonicong-shi- site2nian-jing-tutanodesi-utokorowomatometemita Ø この資料も後⽇アップしますので、 上記も合わせてご⼀読いただけると幸いです。
  8. 21 前提として 弊社のようなリセラーが提供する AWS アカウントでは、 お客様のサポートをリセラーが担うことになっています。 そのため、リセラー内の知⾒や調査による回答が基本となりますが、 AWS 基盤側の問題が疑われるような場合などには、AWS サポートへエスカ

    レーションし、お客様 ←→ AWS テクニカルサポートの仲介役として⽴ち回る 場⾯があります。 リセラーを通すことで解決が遅くなった、とならないように、 AWS の初動よりも早く対応しようと個⼈的には思いながら仕事をしています が、間に⼊っているから余計感じるのかもしれませんが、スタンスや考え⽅の違 いからくると思われる、微妙な「話が噛み合わない感」を感じる時があります。
  9. 23 ⼀例として 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して

    AWS として今後どのように対策するつもりなのか︖ 開⽰されていない情報をご要望される場⾯ メンテナンスの頻度や傾向を教えてほしい S3 の静的ウェブホスティングでは Apache を使っているか︖ AWS から、何らかの提案があった場⾯ スナップショットから新しいインスタンスとして起動してみてほしい 調査のために停⽌中になっているリソースを起動してもらえないか
  10. 24 ⼀例として 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 開⽰されていない情報をご要望される場⾯ メンテナンスの頻度や傾向を教えてほしい S3 の静的ウェブホスティングでは Apache を使っているか︖ AWS から、何らかの提案があった場⾯ スナップショットから新しいインスタンスとして起動してみてほしい 調査のために停⽌中になっているリソースを起動してもらえないか
  11. 25 ⼀例として 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 開⽰されていない情報をご要望される場⾯ メンテナンスの頻度や傾向を教えてほしい S3 の静的ウェブホスティングでは Apache を使っているか︖ AWS から、何らかの提案があった場⾯ スナップショットから新しいインスタンスとして起動してみてほしい 調査のために停⽌中になっているリソースを起動してもらえないか
  12. 26 ⼀例として 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 開⽰されていない情報をご要望される場⾯ メンテナンスの頻度や傾向を教えてほしい S3 の静的ウェブホスティングでは Apache を使っているか︖ AWS から、何らかの提案があった場⾯ スナップショットから新しいインスタンスとして起動してみてほしい 調査のために停⽌中になっているリソースを起動してもらえないか
  13. 27 今回はこの観点に着⽬してみます 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 開⽰されていない情報をご要望される場⾯ メンテナンスの頻度や傾向を教えてほしい S3 の静的ウェブホスティングでは Apache を使っているか︖ AWS から、何らかの提案があった場⾯ スナップショットから新しいインスタンスとして起動してみてほしい 調査のために停⽌中になっているリソースを起動してもらえないか
  14. 28 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい)
  15. 29 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) おそらく、以下のような背景があるんだろうな︖とは思っています 「なぜなぜ分析」などの考え⽅が定着している 顧客や発注元への説明責任が発⽣する
  16. 30 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) おそらく、以下のような背景があるんだろうな︖とは思っています 「なぜなぜ分析」などの考え⽅が定着している 顧客や発注元への説明責任が発⽣する 「責任共有モデル | AWS」より抜粋 https://aws.amazon.com/jp/compliance/shared-responsibility-model/ AWS がセキュリティに対する責任を負っている
  17. 31 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) おそらく、以下のような背景があるんだろうな︖とは思っています 「なぜなぜ分析」などの考え⽅が定着している 顧客や発注元への説明責任が発⽣する 「責任共有モデル | AWS」より抜粋 https://aws.amazon.com/jp/compliance/shared-responsibility-model/ AWS がセキュリティに対する責任を負っている 説明責任も求めているのではないかと推察 (特に⽇本⼈が責任感が強いことも背景にある︖)
  18. 34 AWS がすでに公開しているスタンス 「技術的なお問い合わせに関するガイドライン」で以下のように書かれています 障害の原因についてのお問い合わせ 〜中略〜 AWS では、障害内容の詳細なご説明は⾏っておりません。詳細な原因等をお伝えしても、お客様の 回避策には影響がなく、お客様の課題解決において本質的ではないと考えているためです。むしろ 監視サービスの適切な活⽤や、⼀次復旧を優先する⽅法をご案内することで、お客様の課題を迅速

    に解決することを⽬指します。 AWS では障害の内容の詳細な説明をしていない なぜなら、利⽤者がコントロールできない範囲となり、利⽤者へ伝えても利⽤者 として取りうる回避策に影響を及ぼすものではないと考えているから 「技術的なお問い合わせに関するガイドライン | AWS サポート / 障害の原因についてのお問い合わせ」より抜粋 https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/
  19. 35 AWS がすでに公開しているスタンス 「技術的なお問い合わせに関するガイドライン」で以下のように書かれています 障害の原因についてのお問い合わせ 〜中略〜 AWS では、障害内容の詳細なご説明は⾏っておりません。詳細な原因等をお伝えしても、お客様の 回避策には影響がなく、お客様の課題解決において本質的ではないと考えているためです。むしろ 監視サービスの適切な活⽤や、⼀次復旧を優先する⽅法をご案内することで、お客様の課題を迅速

    に解決することを⽬指します。 AWS では障害の内容の詳細な説明をしていない なぜなら、利⽤者がコントロールできない範囲となり、利⽤者へ伝えても利⽤者 として取りうる回避策に影響を及ぼすものではないと考えているから つまり利⽤者が抱える課題解決に対して本質的ではないから 「技術的なお問い合わせに関するガイドライン | AWS サポート / 障害の原因についてのお問い合わせ」より抜粋 https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/
  20. 36 意図せず再起動した対象が EC2 だったと仮定すると︖ CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖

    エラーの種別︖ AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html
  21. 37 意図せず再起動した対象が EC2 だったと仮定すると︖ CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖

    エラーの種別︖ AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html ステータスチェックについては、本⽇時点で StatusCheckFailed_AttachedEBS が追加されていますが、 今⽇のところは上記 2 観点に絞って、以降続けます。
  22. 38 エラー記録があり StatusCheckFailed_System であった場合 CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖

    エラーの種別︖ AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_System が記録される場合、 修復には AWS の関与が必要なインスタンスの基盤の問題 と明記されている
  23. 39 AWS 基盤側の問題と結論づけられる CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖ エラーの種別︖

    AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_System が記録される場合、 修復には AWS の関与が必要なインスタンスの基盤の問題 と明記されている AWS 基盤側の問題ではあるものの、前述までお話ししたように お客様の課題解決の本質に影響しないため 詳細な原因は開⽰しない
  24. 40 前述までの通り詳細な原因の説明はしない CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖ エラーの種別︖ AWS

    基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_System が記録される場合、 修復には AWS の関与が必要なインスタンスの基盤の問題 と明記されている AWS 基盤側の問題ではあるものの、前述までお話ししたように お客様の課題解決の本質に影響しないため 詳細な原因は開⽰しない ただ、考えられる可能性の例は挙げてくれている ・ネットワーク接続の喪失 ・システム電源の喪失 ・物理ホストのソフトウェアの問題 ・ネットワーク到達可能性に影響する、 物理ホスト上のハードウェアの問題
  25. 41 ドキュメント以上の回答が得られないため問い合わせ不要 CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖ エラーの種別︖ AWS

    基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_System が記録される場合、 修復には AWS の関与が必要なインスタンスの基盤の問題 と明記されている AWS 基盤側の問題ではあるものの、前述までお話ししたように お客様の課題解決の本質に影響しないため 詳細な原因は開⽰しない 結果、問い合わせは不要 (問い合わせても本ページに書かれていること以上の提⽰がない) ただ、考えられる可能性の例は挙げてくれている ・ネットワーク接続の喪失 ・システム電源の喪失 ・物理ホストのソフトウェアの問題 ・ネットワーク到達可能性に影響する、 物理ホスト上のハードウェアの問題
  26. 42 StatusCheckFailed_System が記録されていたということは︖ Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html 利⽤者の⽴場としては ユーザー側で Uncontrollable

    なエラーが出ていた その結果、再起動が実施された ユーザー側が提供しているサービスとして 設計通り、ダウンタイムの発⽣をさせなかった サービスのダウンタイムを発⽣させてしまった この場合、アーキテクチャの⾒直しをする AWS で基盤障害が起きたのね︖ という切り分けができただけで良しとするのが⭕
  27. 43 より気にすべき観点は︖ Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html 利⽤者の⽴場としては ユーザー側で Uncontrollable なエラーが出ていた

    その結果、再起動が実施された ユーザー側が提供しているサービスとして 設計通り、ダウンタイムの発⽣をさせなかった サービスのダウンタイムを発⽣させてしまった この場合、アーキテクチャの⾒直しをする 気にすべき本質は、提供しているサービスに 影響が出たか出ていないか、ではないか︖ 影響が出ていたらアーキテクチャの再設計が必要
  28. 44 エラー記録があり StatusCheckFailed_Instance であった場合 CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖

    エラーの種別︖ AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_Instance が記録される場合、 ユーザーが関与して修復する必要のある問題 と明記されている
  29. 45 AWS が関与しない OS レイヤー以上の問題と⾔える CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖

    StatusCheckFailed_Instance︖ エラーの種別︖ AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_Instance が記録される場合、 ユーザーが関与して修復する必要のある問題 と明記されている つまり、AWS が直接関与しない範囲(OS レイヤー以上) での問題を探る必要がある
  30. 46 AWS が関与しないため、結局問い合わせは不要 CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖ エラーの種別︖

    AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_Instance が記録される場合、 ユーザーが関与して修復する必要のある問題 と明記されている つまり、AWS が直接関与しない範囲(OS レイヤー以上) での問題を探る必要がある 結果、初動対応として AWS への問い合わせは不要
  31. 47 AWS が関与しないため、結局問い合わせは不要 CloudWatch メトリクスを確認してみる ステータスチェック エラーが出ているか StatusCheckFailed_System︖ StatusCheckFailed_Instance︖ エラーの種別︖

    AWS 基盤障害 OS レイヤー以上の問題 Yes No Amazon EC2 インスタンスのステータスチェック https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html StatusCheckFailed_Instance が記録される場合、 ユーザーが関与して修復する必要のある問題 と明記されている つまり、AWS が直接関与しない範囲(OS レイヤー以上) での問題を探る必要がある 結果、初動対応として AWS への問い合わせは不要 もちろん、内部調査の結果 AWS の提供モジュールや エージェントの問題が疑われる︕ このような場合は問い合わせすべきですが、 「初動ですぐに AWS へ問い合わせ」とはならないはず、 という観点です
  32. 49 意図しない再起動で問い合わせが不要なケース 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 意図しない再起動が発⽣したとしても その後、EC2 インスタンスが問題なく再開されて稼働し続けている場合は 正常な稼働状態に戻っている 意図しない再起動 稼働状態 提供サービスへの 影響なし
  33. 50 意図しない再起動で問い合わせが不要なケース 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 意図しない再起動が発⽣したとしても その後、EC2 インスタンスが問題なく再開されて稼働し続けている場合は 再起動の発⽣要因を AWS に問い合わせる必要がない、と分類可能 正常な稼働状態に戻っている 意図しない再起動 稼働状態 提供サービスへの 影響なし
  34. 52 意図しない再起動で問い合わせが必要と考えられるケース 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 意図しない再起動が発⽣した後に 正常な EC2 インスタンスの稼働につながっていない場合 正常な稼働状態でない 意図しない再起動 稼働状態 提供サービスへの 影響あり
  35. 53 意図しない再起動で問い合わせが必要と考えられるケース 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 意図しない再起動が発⽣した後に 正常な EC2 インスタンスの稼働につながっていない場合 この時初めて AWS サポートへ問い合わせし、原因の特定と復旧を模索する 正常な稼働状態でない 意図しない再起動 稼働状態 提供サービスへの 影響あり
  36. 54 意図しない再起動で問い合わせが必要と考えられるケース 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS

    としてどう考えているのか︖(何なら書⾯で出してほしい) 意図しない再起動が発⽣した後に 正常な EC2 インスタンスの稼働につながっていない場合 この時初めて AWS サポートへ問い合わせし、原因の特定と復旧を模索する ただし、InsufficientInstanceCapacity が記録されており⼀時的な EC2 のキャパシティの不⾜の場合 は、リトライの実施の必要性がすでに案内されており、問い合わせてもその⽂書提⽰で終わる可能性が ある。そのような場合は、問い合わせは不要と位置付けられる。 正常な稼働状態でない 意図しない再起動 稼働状態 提供サービスへの 影響あり
  37. 55 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい)
  38. 57 AWS がすでに公開しているスタンス 「技術的なお問い合わせに関するガイドライン」で以下のように書かれています 障害の原因についてのお問い合わせ 〜中略〜 障害発⽣は予測不可能であり、また不可避です。AWS ではインフラの障害に対し要因分析および発 ⽣率の低減に努めておりますが、障害の発⽣を完全に防ぐことは困難です。 このため

    AWS では「Design For Failure」(故障を前提とした設計)を推奨しています。また、監視 サービスやリソースの提供、ベストプラクティスのご案内等を⾏っています。 「技術的なお問い合わせに関するガイドライン | AWS サポート / 障害の原因についてのお問い合わせ」より抜粋 https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/
  39. 59 Design for failure とは︖ ホワイトペーパー「Running Containerized Microservices on AWS」の

    いちセクションとして設けられているページで解説されています。 「Design for failure - Running Containerized Microservices on AWS」より抜粋 https://docs.aws.amazon.com/ja_jp/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  40. 60 Design for failure とは︖ ホワイトペーパー「Running Containerized Microservices on AWS」の

    いちセクションとして設けられているページで解説されています。 ⼤元のホワイトペーパーのタイトルを直訳すると「AWS 上でコンテナ化された マイクロサービスを実⾏する」となりますが、コンテナの利⽤有無に関わらず、 Well-Architected Framework の中でも引き合いに出されることもあり、 AWS が基本と考えていると⾒られる設計原則の⼀つです。 「Design for failure - Running Containerized Microservices on AWS」より抜粋 https://docs.aws.amazon.com/ja_jp/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  41. 61 Design for failure とは︖ ホワイトペーパー「Running Containerized Microservices on AWS」の

    いちセクションとして設けられているページで解説されています。 ⼤元のホワイトペーパーのタイトルを直訳すると「AWS 上でコンテナ化された マイクロサービスを実⾏する」となりますが、コンテナの利⽤有無に関わらず、 Well-Architected Framework の中でも引き合いに出されることもあり、 AWS が基本と考えていると⾒られる設計原則の⼀つです。 > “Everything fails all the time.” – Werner Vogels ページ冒頭で上記のように述べられており、「完全状態で動作し続ける」前提で はなく、「すべては常に失敗する」ことを想定した設計であることが推奨されて いる、という理解が必要です。 「Design for failure - Running Containerized Microservices on AWS」より抜粋 https://docs.aws.amazon.com/ja_jp/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  42. 62 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) 上記のような考えに⾄るということは︖
  43. 63 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) 上記のような考えに⾄るということは︖ 「完全状態で稼働し続ける」ことを前提としている or 期待していると⾔える
  44. 64 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい)
  45. 65 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) 上記観点については、⼀つ⽬、および⼆つ⽬と若⼲重なる部分もありますが AWS に対する説明責任を求めているものかと思われます。
  46. 66 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) 上記観点については、⼀つ⽬、および⼆つ⽬と若⼲重なる部分もありますが AWS に対する説明責任を求めているものかと思われます。 お客様の課題解決に対して本質的でない情報は開⽰しないスタンスがある以上、 どのように改善するつもりかについても開⽰されない可能性が⼤きいです。
  47. 67 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 明確な原因の追求や AWS に対して改善策をご要望される場⾯ 意図せず発⽣した再起動の理由を教えてほしい インスタンスの retirement

    について、今後発⽣しないように改善してほしい 今回発⽣した事象に対して、AWS としてどう考えているのか︖(何なら書⾯で出してほしい) 上記観点については、⼀つ⽬、および⼆つ⽬と若⼲重なる部分もありますが AWS に対する説明責任を求めているものかと思われます。 お客様の課題解決に対して本質的でない情報は開⽰しないスタンスがある以上、 どのように改善するつもりかについても開⽰されない可能性が⼤きいです。 また、書⾯が出てくることはありません。
  48. 71 すでに公開されている情報を総合して 管理の責任と説明や、情報開⽰については、 ここまでで⾒た「技術的なお問い合わせに関するガイドライン」に記載の通り 基盤の状態がどのようになっているかを⽰す CloudWatch メトリクスも 各々の AWS サービスに対して⽤意されている

    これらを活⽤して状態の切り分け⼿段が⽤意されている 設計思想として推奨するホワイトペーパーなどの指針が⽤意されている これらさまざまな情報提供により… 状況判断・切り分けのためのメトリクスの提供、 ガイドラインや、公式ドキュメントの提⽰で すでに説明責任を果たしている、とも考えられます。
  49. 73 クラウドに合わせた設計を そもそもホワイトペーパーで Design for failure と⾔っている “Everything fails all

    the time.” – Werner Vogels Design for failure - Running Containerized Microservices on AWS https://docs.aws.amazon.com/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  50. 74 クラウドに合わせた設計を そもそもホワイトペーパーで Design for failure と⾔っている “Everything fails all

    the time.” – Werner Vogels 障害が起こり得ない、起こるはずはない、起こってもらっては困る という考えを捨てる Design for failure - Running Containerized Microservices on AWS https://docs.aws.amazon.com/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  51. 75 クラウドに合わせた設計を そもそもホワイトペーパーで Design for failure と⾔っている “Everything fails all

    the time.” – Werner Vogels 障害が起こり得ない、起こるはずはない、起こってもらっては困る という考えを捨てる 事象発⽣時、影響を受けているリソースを捨て、 新たなリソースを作ることで速やかな復旧ができる設計をする。 Design for failure - Running Containerized Microservices on AWS https://docs.aws.amazon.com/whitepapers/latest/running-containerized-microservices/design-for-failure.html
  52. 77 ⼀定数いただくお問い合わせ インスタンスステータスチェックで、 「StatusCheckFailed_System」が起こったのはなぜか︖ AWS として、この問題を引き起こさない具体的な改善策を提⽰してほしい インスタンスの retirement を知らせる通知が来た 期⽇の延期をしてほしい

    そもそも、retirement が起きないようにしてほしい Status checks for Amazon EC2 instances https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html Instance retirement https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-retirement.html
  53. 80 まとめ AWS のベストプラクティス(設計原則)に沿っている、 かつ、AWS 公式ドキュメントで解説されているものがあれば、 「即問い合わせ︕」としなくても良い運⽤に落とし込むことができる エラー記録 → 正常復旧

    → サービス影響なし︓この場合は「事象」発⽣と⽚付けられる エラー記録 → 想定通り復旧しない → サービス影響発⽣︓この場合を「障害」とみなす
  54. 81 まとめ AWS のベストプラクティス(設計原則)に沿っている、 かつ、AWS 公式ドキュメントで解説されているものがあれば、 「即問い合わせ︕」としなくても良い運⽤に落とし込むことができる エラー記録 → 正常復旧

    → サービス影響なし︓この場合は「事象」発⽣と⽚付けられる エラー記録 → 想定通り復旧しない → サービス影響発⽣︓この場合を「障害」とみなす マネージドサービスと銘打った AWS サービスでもない EC2 の採⽤ですら、基盤の運⽤・管理を AWS に委ねていると⾔える
  55. 82 まとめ AWS のベストプラクティス(設計原則)に沿っている、 かつ、AWS 公式ドキュメントで解説されているものがあれば、 「即問い合わせ︕」としなくても良い運⽤に落とし込むことができる エラー記録 → 正常復旧

    → サービス影響なし︓この場合は「事象」発⽣と⽚付けられる エラー記録 → 想定通り復旧しない → サービス影響発⽣︓この場合を「障害」とみなす マネージドサービスと銘打った AWS サービスでもない EC2 の採⽤ですら、基盤の運⽤・管理を AWS に委ねていると⾔える そのため、基盤のことで発⽣すること全てをオンプレ的に捉える必要もない
  56. 83 まとめ AWS のベストプラクティス(設計原則)に沿っている、 かつ、AWS 公式ドキュメントで解説されているものがあれば、 「即問い合わせ︕」としなくても良い運⽤に落とし込むことができる エラー記録 → 正常復旧

    → サービス影響なし︓この場合は「事象」発⽣と⽚付けられる エラー記録 → 想定通り復旧しない → サービス影響発⽣︓この場合を「障害」とみなす マネージドサービスと銘打った AWS サービスでもない EC2 の採⽤ですら、基盤の運⽤・管理を AWS に委ねていると⾔える そのため、基盤のことで発⽣すること全てをオンプレ的に捉える必要もない インフラ基盤観点ではなく、提供サービス観点で事象を捉えることにより、 よりビジネスに即した問い合わせにすることができる
  57. 84 まとめ AWS のベストプラクティス(設計原則)に沿っている、 かつ、AWS 公式ドキュメントで解説されているものがあれば、 「即問い合わせ︕」としなくても良い運⽤に落とし込むことができる エラー記録 → 正常復旧

    → サービス影響なし︓この場合は「事象」発⽣と⽚付けられる エラー記録 → 想定通り復旧しない → サービス影響発⽣︓この場合を「障害」とみなす マネージドサービスと銘打った AWS サービスでもない EC2 の採⽤ですら、基盤の運⽤・管理を AWS に委ねていると⾔える そのため、基盤のことで発⽣すること全てをオンプレ的に捉える必要もない インフラ基盤観点ではなく、提供サービス観点で事象を捉えることにより、 よりビジネスに即した問い合わせにすることができる ひいては、細々した問い合わせ頻度の低減に寄与すると考えられる(運⽤で疲弊しない)