少人数SREで信頼性を配るためのセルフサービスとガードレール設計

by Ryo Nakamine

Embed

Start on current slide

Slide 1

Slide 1 text

少人数SREで信頼性を配るためのセルフサービスとガードレール設計 Road To SRE NEXT 2026@沖縄 2026-05-08 株式会社グラファー仲嶺良

Slide 2

Slide 2 text

2 自己紹介仲嶺良 / Ryo Nakamine 株式会社グラファー SRE / Platform Engineering として、Kubernetesクラスタの運用・信頼性向上をはじめ、デプロイ基盤の改善や IaCの推進など、SaaS基盤の安定運用と継続的な改善に取り組んでいます。 ● 沖縄県出身 ● x: @r_nakamine

Slide 3

Slide 3 text

行政サービスのデジタル変革 Graﬀer Platform 生成AIを企業の業務で活用していくために必要な、伴走支援、研修、活用プロダクトを包括的に提供。生成AI活用によるビジネス変革 Graﬀer AI Solution 3 行政・自治体向け事業者向け事業内容住民接点から行政の内部事務まで切れ目のない行政サービスを実現する、数千万人の市民が使うことのできるデジタル行政インフラを提供。

Slide 4

Slide 4 text

Graffer Platformとは 4 行政サービスのデジタル変革オンライン手続き Graffer スマート申請手続きの案内 Graffer 手続きイド窓口のネット予約 Graffer 窓口予約スマートフォンやウェブから行政サービスが利用できます手続きや制度の案内、窓口の予約からオンライン手続きまで、様々な行政サービスをインターネットから行えるようにする、行政機関向けのクラウド型のサービススイートを提供しています。数百万人の市民が使うデジタル行政インフラですこれまでに顧客である地方自治体を通じ、数百万人の市民の方がGraffer Platformを通じてオンライン手続きなどの行政サービスを利用しています。電話自動応答／電話発信 Graffer コール

Slide 5

Slide 5 text

Graffer Platformのサービス提供実績 5 6団体 102団体 50団体 273団体 2020年3月 2022年3月 2021年3月 2023年3月 160団体 2024年3月行政サービスのデジタル変革 194団体 2024年9月 ✔ 自治体中心に273団体にサービスを導入 ✔ 4,100万人超の市民を対象にサービスを提供 ✔ 政令指定都市の70%で導入実績がある導入団体の例（一部）

Slide 6

Slide 6 text

データ分析・処理一括処理アプリケーションエンタープライズ向け生成AISaaS「Graﬀer AI Studio」 ● 汎用的に活用できるチャットサービスを起点としながら、より簡易的に生成AIを活用できるアプリケーションや、高度な活用や定常業務の効率化につながるような機能を幅広く提供 6 チャットサービス • GPT/Geminiなどモデル切り替え機能 • プロンプトのテンプレート共有機能 • 法人利用に即したアカウント管理など多数搭載。タスクライブラリ営業や経営企画など業務タスクごとにアイテムを用意。フォーム入力をするだけでプロンプトなしに生成AI活用が可能。 ExcelやCSVなどのファイルを読み込んで、集計処理や詳細なデータ分析を行うことが可能。定性的なアンケートのカテゴリ分類や、大量の求人原稿の作成など、同種のプロンプトの実行を繰り返し行う場面で、その処理を一括で行うことが可能。ワークスペース社内のドキュメントを継続的に管理し、チャット機能を通じて検索・参照をしながら新しい成果物を生み出すことが可能。音声文字起こし音声や動画データをアップロードすることで、簡単に文字起こしができ、議事録の作成やWord / PDFファイルの生成が可能。ファイル検索その場でPDFなどのファイルを読み込んで、単発的に、チャットの指示で文言の検索や示唆出しなどの処理が可能。事業者向け

Slide 7

Slide 7 text

Graffer AI Solutionの導入企業（一部） 7 枚方市その他、IT・広告企業、食品卸売業、人材派遣会社、鉄道、銀行などさまざまな業界で導入 2.8万人超のビジネスパーソンの生成AI活用を支援生成AI活用によるビジネス変革

Slide 8

Slide 8 text

複数プロダクトの信頼性を少人数で支えるという課題 ● 業務プロセスに摩擦がある領域のプロダクト群を多数展開。 ● 全プロダクトを横断して「高い信頼性・セキュリティ・運用性」を担保する必要がある。 ● しかし、インフラ基盤(主にAWS / EKS) と運用を見るSREチームは少人数。主なシステム構成 ● アプリケーション基盤は主にAWS / EKS ● プロダクト・環境ごとにAWSアカウントを分離 ● 一部でGoogle Cloud / Azureも利用 ● SREはクラウド境界、EKS、CI/CD、Datadog、セキュリティ検知を横断して見る 8

Slide 9

Slide 9 text

サービス固有の変更をすべてSREが抱えると組織のボトルネックになる 9

Slide 10

Slide 10 text

機械的に満たすべき4つの基準: Security | Maintainability | Monitoring / Observability | Reliability これらを人間のチェックリストではなく、3つのフェーズでシステムに組み込む本番準備の基準を仕組みに落とす「3層のガードレール」 10

Slide 11

Slide 11 text

1. 作る前 Before 11

Slide 12

Slide 12 text

【作る前】組織レベルで「越えてはいけない線」を敷くセルフサービスの前提として、SREがクラウドアカウントやプロジェクトの責任境界を事前に整える。監査ログ、権限、CI/CDの入口を強固に設定する。 12 絶対的ガードレール(変更不可の制約の例):

Slide 13

Slide 13 text

【作る前】SREの判断をコードとして配る - Terraformモジュールよく使うリソースをTerraformモジュールとして提供する。 ● S3 / KMS / ECR ● Aurora / RDS ● backup ● Datadog Forwarder 目的は単なるコードの再利用ではない ● セキュリティ、ガバナンス、運用ルールを「標準部品」として配るための仕組み。 ● プロダクトチームはモジュールを使うことで、推奨設定に自然に乗れる。 ● 標準から外れる場合は、Pull Requestに理由を残す。 13

Slide 14

Slide 14 text

【作る前】SREの判断をコードとして配る - Kubernetes / Helm Chart Kubernetesでアプリを動かすには、DeploymentやServiceなど複数の設定ファイルを書く必要がある。これを各チームが毎回ゼロから書くと、設定漏れやサービスごとの差分が生まれやすい。また、すべての開発者がKubernetesに精通しているわけではないため、社内標準のHelm Chartを用意している。標準化している例: ● アプリの起動方法 ● 通信の受け口 ● ヘルスチェック ● CPU / memoryなどのリソース設定 ● 安全に動かすためのsecurityContext ● 共通で入れたいsidecar 14

Slide 15

Slide 15 text

【作る前】新規プロダクトを最初から「標準の運用」に乗せる新しいプロダクトをEKSで動かすには、アプリ本体のコード以外にも、デプロイに必要な設定やファイル配置が必要になる。ただし、KubernetesやArgoCDの構成をすべて理解していないと始められない状態にはしたくない。新規サービス追加時に必要な作業をテンプレート化して提供している ● Kubernetes manifest用、Terraform用ディレクトリ ● ArgoCD Application ● GitHub Actions workﬂow ● Makeﬁleによるセットアップ支援等ゼロから調べて作るのではなく、コマンドを実行すると標準の置き場所と設定が用意される。新規サービスを作った段階から、標準のデプロイ・監視・運用に乗せやすくする。 15

Slide 16

Slide 16 text

2. 作る時 During 16

Slide 17

Slide 17 text

【作る時】CIとPolicy as Codeで検知する Pull Requestの段階で、変更範囲とリスクを機械的に確認する ● 変更されたservice / envだけを対象にCIを実行する ● terraform fmt / validate / plan をPull Request上で確認する ● applyは原則CI経由にする ● TrivyやRego policyで設定ミスを検知する ● 補助的にAIレビューも使う ● CODEOWNERS reviewで責任境界を明確にするレビューで毎回思い出すべきルールは、できるだけCIに寄せる。 17

Slide 18

Slide 18 text

3. 作った後 After 18

Slide 19

Slide 19 text

【作った後】運用を始めた段階からログとイベントが集約されるアプリケーションをEKSで動かすと、運用に必要な情報が自動的にDatadogへ集まる。プロダクトチームがサービスごとにログ収集やイベント収集の仕組みを作る必要はない。 ● コンテナの標準出力・標準エラーに出したログ ● Podの起動失敗や再起動などのKubernetesイベント ● PodやDeploymentの状態 ● CPU / memoryなどの利用状況 ● process / network / runtime security events これらはPodのlabelやannotationから、service、env、owner、通知先チームに紐づけられる。アプリを標準の形で載せるだけで、調査・監視・通知に必要な情報が揃う。 19

Slide 20

Slide 20 text

【作った後】運用リスクを検知し、担当チームへ自立的に通知する EKS上でよく起きる運用リスクは、共通のDatadog Monitorで検知する。 ● OOMの多発 ● Job / CronJobの失敗 ● BackOﬀ / CrashLoopBackOﬀ ● DaemonSetのready不足 ● NodeGroup単位のCPU / Memory request過多 ● ログ取り込み量の急増アラートはowner情報からチームごとにSlackでメンションする。確認先や対応方針も入れて、担当チームが自分たちで動ける状態にする。 20

Slide 21

Slide 21 text

【作った後】IaCやCIで防げない異常な振る舞いを見続けるセルフサービス化すると、各チームが自分たちでインフラやmanifestを書けるようになる。一方で、SREやセキュリティチームから見ると、作った後にも問いが残る。この「作った後も見続ける」レイヤーとしてDatadogを使っている。 21 標準から外れた設定が入っていないか IaCでは検知できない実行時の異常をどう見るか不審な操作やイベントが起きていないか

Slide 22

Slide 22 text

【作った後】Datadogを使ったセキュリティモニタリング Datadog CSM(Cloud Security Management) ● クラウドリソースの設定ミスを検知する ● S3 bucketやRDSの暗号化、backup retention period ● 意図しないPublic設定 ● IaCで防いだはずのルールが、実環境でも守られているかを見る Datadog Workload Security ● コンテナやPod上の実行時イベントを検知する ● 不審なプロセス実行 ● 想定外のファイル・ネットワーク操作 ● 実行時にしか分からない異常を拾う MonitorやCSMカスタムルールもTerraformで管理し、監視設定そのものもレビュー可能にしている。 22

Slide 23

Slide 23 text

【作った後】Datadogを使ったセキュリティモニタリング具体的なセキュリティモニタリングや自動化の取り組みは、同僚の発表資料で詳しく紹介されています。 23 https://speakerdeck.com/mrtc0/datadog-woshi-tu tapurodakutotokuraudono-sekiyuriteimonitaringu https://speakerdeck.com/mrtc0/product-security- casual-talk-number-1-datadog-woshi-tutasekiyuri teimonitaringuto-zi-dong-hua-noqu-rizu-mi

Slide 24

Slide 24 text

まとめ少人数SREでは、信頼性を仕組みとして配る ● 振り返ると、やっていることはPlatform Engineering的でもある ● ただし目的は、開発者体験だけではない ● 少人数SREで信頼性・セキュリティ・運用性を維持すること ● セルフサービスは自由放任ではなく、ガードレールとセットで成立する ● 標準部品・CI・監視を通じて、プロダクトチームが安全に自走できる状態を作る 24