Slide 1

Slide 1 text

クラウドネイティブ時代の システム運用・監視とは? NCDC Onlineセミナー 2024年1月31日 NCDC株式会社 〜自動化・効率化のベストプラクティスを紹介〜

Slide 2

Slide 2 text

三浦 洋平 マネージングアーキテクト NCDCでは、 AWSアーキテクチャコンサル ティングを中心として様々なプロジェクト に従事。 AWSの大規模IoTプラットフォーム構築に加 え、JavaScript(React)を主としたフロントエ ンド開発、スマートフォンアプリ開発も経 験し、フロントからインフラまで幅広い領 域に対応できる技術力を持つ。

Slide 3

Slide 3 text

3 NCDCのサービス体系 Business 新規事業⽴ち上げからの伴⾛ 業務改⾰やIT改⾰の⽀援 Design ユーザ視点での設計 Technology 技術による課題解決 Innovation • 新規サービス企画 • PoC⽀援 • デザイン思考 • UX/UIデザイン • モバイル・Web先端技術 • IoT / AI • クラウドインテグレーション

Slide 4

Slide 4 text

知識、経験、および実績 に基づく認定 クラウドに関する強み 4 自社運営で培った豊富な AWSのノウハウ NCDCは、内製化支援推進AWSパートナー、 サーバーレス(AWS Lambda)のサービス デリバリーパートナーなど AWS利用の知識、経験、 および実績に基づく認定を 取得しています。 AWSサービスデリバリープログラムとは、特定のAWSサービ スをお客さまに提供する上で深い技術的知識、経験、および 実際の成功事例があるAWSパートナーをAWSが認定するプロ グラムです https://aws.amazon.com/jp/partners/programs/service-delivery/ NCDCは、AWS上で稼働する自社サービス も提供しており、システム開発からサー ビス運営まで行っています。 サービスを自社運営する中で長年蓄積し てきたノウハウを基に、コストの最適化 から、AWSの多様なサービスをフルに活 用するクラウドネイティブなアーキテク チャの設計まで、実践的なサポートを行 います。

Slide 5

Slide 5 text

クラウド事例(ライフネット生命保険株式会社) 5

Slide 6

Slide 6 text

本日のテーマ

Slide 7

Slide 7 text

今日のテーマ l クラウドでの運用・監視は、意外なほど簡単にできる l オンプレでの設定より簡単・高性能 l クラウドネイティブな作りになっている場合、 監視のポイントはかなり限られる l クラウドサービス側でカバーしてくれる範囲が広い l 自動検知を駆使して想定外の事象にも対応 l 細かい設定不要でクラウドのベストプラクティスの恩恵を得られる 7

Slide 8

Slide 8 text

目次 l クラウド時代の運用・監視とは l オンプレミスの運用・監視 l クラウドだからできる監視設定 l サーバレス・マネージドサービスの活用 l サービス内での監視設定 l 賢く使いたい「自動」監視サービス l クラウドでサービスを運用するということ l クラウドネイティブなサービスの構築 l シンプルで強力な自動監視体制の構成 8

Slide 9

Slide 9 text

クラウド時代の運用・監視とは

Slide 10

Slide 10 text

クラウド時代の運用監視 l ある会社の事例 10 システム JP1等の 統合監視ツール 運用監視担当 アプリ担当 インフラ担当 各種情報の 収集 ②解決できない場合は、 ルールに基づいて 共有、エスカレーション ①規定されているエラーであれば、 手順に基づいて再起動などの 対応を実施 従来の体制 システム オンプレ基盤 アラート 発生 :保守ベンダー :自社 :自社

Slide 11

Slide 11 text

クラウド時代の運用監視 l ある会社の事例 11 システム クラウド監視 サービス アプリ担当 インフラ担当 各種情報の 収集 ②自動復旧できない場合は、 ルールに基づいて 自動エスカレーション 現在の体制 システム 自動復旧 AWS 上基盤 ①ルールに基づいて、自動復旧できる エラーは自動復旧を実施 (再起動、オートスケール、リトライ) チーム自体が消滅 アラート 発生 →保守契約なし、自社で完結 :自社 :自社

Slide 12

Slide 12 text

クラウド時代の運用監視 l オンプレ時代には必要だったチームがクラウド時代では必要なく なることもある l 自動での復旧によるオペレーションの削減に加え、そもそも監視 すべきポイントも少なくなっており、監視システムそのものがシ ンプルになりやすい l サーバレス・マネージドサービスの恩恵をフルに受けられる 12

Slide 13

Slide 13 text

オンプレミスの運用・監視

Slide 14

Slide 14 text

オンプレミスの運用・監視 l 基本的にサーバーの面倒は全て自分で見る必要がある l 全てのサーバーの多くの数値を見る必要あり l JP1、Zabbixなどの専用ソフトウェアを使用 l 自動化できているところもあるが、いまだに 手動での再起動などの定型作業が残る l 物理的なメンテナンスも必要 運用監視の設計は難しい →結果として手作業に頼ることも 14

Slide 15

Slide 15 text

クラウドだからできる監視設定

Slide 16

Slide 16 text

サーバレス・マネージドサービスの活用 l 監視はするが、自動で解決するものが多い l 監視自体もサービスに含まれる=意識するところが少ない l サーバレス l アプリのクラッシュ→自動再実行 l アクセススパイク→オートスケールアウト l サーバー上のディスク容量など→考慮不要 l マネージドサービス l ログ監視も不要な場合あり l CPU/メモリなどを管理しないものもある 16

Slide 17

Slide 17 text

サーバレス・マネージドサービスの活用 l クラウドであっても監視が必要なもの l CPU/メモリ(サーバレス) l 性質によっては一度決めたら見なくて良い種類のシステムもある l 死活・稼働監視 l アプリケーションエラー l 性能監視 l スケールアウト条件監視 l …など 17

Slide 18

Slide 18 text

サーバレス・マネージドサービスの活用 l クラウドにおける監視はほとんどお膳立てされている l (AWSの場合)CloudWatch メトリクスが必要な項目を網羅している l CloudWatchで条件を設定→必要なアクション(通知、再起動etc) l 上記のために特別な設定をする必要はほとんどない l アクションはLambdaでカスタマイズ可能→ほとんどのことが自動化可能 l エラーログ監視 l CloudWatch Logsに集約→エラー文言を一括で監視→アクション l Java/Nodejsを使っている場合のメモリ使用量など、一部デフォルトで は取れないものも 18

Slide 19

Slide 19 text

サービス内での監視設定 l 例)ECS (コンテナサービス)における監視 l CPU/メモリ:一定値以上になるとオートスケールする →オートスケールすることで対応済みのため通知は不要 l ディスク:ステートレスになっており監視不要 l 死活:サービスで監視・自動再起動してくれる l ALB等で正常レスポンスを返すかもチェック可能 l 遅延:監視の設定が必要、遅い場合再起動(自動化可能) l アプリログ:監視の設定が必要、通知して対応 l インフラログ:基本不要 l →通知をもらって作業するのがアプリケーションエラーしかない 19

Slide 20

Slide 20 text

賢く使いたい「自動」監視サービス l AWSには、サービスを横断して、自動で監視をおこなってくれる サービスが存在する l Amazon GuardDuty l Amazon Inspector l Amazon Macie l Amazon DevOps Guru l AWS Cost Anomaly Detection l AWS SecurityHub 20

Slide 21

Slide 21 text

賢く使いたい「自動」監視サービス l Amazon GuardDuty l 脆弱性の動的検知 l 悪意ある攻撃やマルウェア等のよる異常な挙動などを自動検知 l Amazon Inspector l 脆弱性の静的診断 l アプリケーションの脆弱性を自動で検知してくれる 21

Slide 22

Slide 22 text

賢く使いたい「自動」監視サービス l Amazon Macie l 機密情報の検知 l 機密データがあるかどうか・データの保護が適切にされているかを検 知 l Amazon DevOps Guru l AIにおける障害の自動検知 l ログ監視と併用することで漏れなく障害検知が可能 22

Slide 23

Slide 23 text

賢く使いたい「自動」監視サービス l AWS Cost Anomaly DetecDon l コスト異常検出 l 通常とは異なるコストが発生した場合に通知 l 勝手にリソースを作られてマイニングされていた、などの事例も l AWS SecurityHub l 自動検出系のサービスをまとめて見れる l 異常があるかどうかが一目でわかる 23

Slide 24

Slide 24 text

クラウドでサービスを運用するということ

Slide 25

Slide 25 text

クラウドネイティブなサービスの構築 l クラウドでは運用監視にさまざまなサポートが得られる l 自動監視ツール・デフォルトでの監視機能 l クラウドネイティブなサービスになっているほど、 運用・監視のタスクが楽になっていく l サーバレス・コンテナの活用→監視項目を絞って対応 l マネージドサービスの活用→ほとんどが自動対応 l 最小限の労力で、網羅的な監視体制を築くことが可能に l 監視した後も、自動対応が多くやることはあまりない状態に 25

Slide 26

Slide 26 text

シンプルで強力な自動監視体制の構成 l クラウドサービス内で必要なものが網羅されているため、 追加のツールで自前で構築する必要がない l Zabbixなども不要に l 自動化されている領域が多く、追加の自動化も容易 l プログラムで自動対応をカスタマイズ可能 l 人間が見てマニュアル対応しなければならないものは 実はかなり少なくできる l より本質的なエラー・障害にリソースを集中できる l システムを見守る部隊は縮小・消滅 26

Slide 27

Slide 27 text

No content