Upgrade to Pro — share decks privately, control downloads, hide ads and more …

少人数SREで信頼性を配るためのセルフサービスとガードレール設計

Avatar for Ryo Nakamine Ryo Nakamine
May 08, 2026
170

 少人数SREで信頼性を配るためのセルフサービスとガードレール設計

Road to SRE NEXT 2026@沖縄
https://sre-lounge.connpass.com/event/383393/

Avatar for Ryo Nakamine

Ryo Nakamine

May 08, 2026

Transcript

  1. 2 自己紹介 仲嶺 良 / Ryo Nakamine 株式会社グラファー SRE /

    Platform Engineering として、Kubernetesクラス タの運用・信頼性向上をはじめ、デプロイ基盤の改善や IaCの推進など、SaaS基盤の安定運用と継続的な改善に取 り組んでいます。 • 沖縄県出身 • x: @r_nakamine
  2. 行政サービスのデジタル変革 Graffer Platform 生成AIを企業の業務で活用していくために必要な、伴走支 援、研修、活用プロダクトを包括的に提供。 生成AI活用によるビジネス変革 Graffer AI Solution 3

    行政・自治体向け 事業者向け 事業内容 住民接点から行政の内部事務まで切れ目のない行政サービス を実現する、数千万人の市民が使うことのできるデジタル行 政インフラを提供。
  3. Graffer Platformとは 4 行政サービスのデジタル変革 オンライン手続き Graffer スマート申請 手続きの案内 Graffer 手続き

    イド 窓口のネット予約 Graffer 窓口予約 スマートフォンやウェブから 行政サービスが利用できます 手続きや制度の案内、窓口の予約からオンライン手 続きまで、様々な行政サービスをインターネットか ら行えるようにする、行政機関向けのクラウド型の サービススイートを提供しています。 数百万人の市民が使う デジタル行政インフラです これまでに顧客である地方自治体を通じ、数百万人 の市民の方がGraffer Platformを通じてオンライン手 続きなどの行政サービスを利用しています。 電話自動応答/電話発信 Graffer コール
  4. Graffer Platformのサービス提供実績 5 6団体 102団体 50団体 273団体 2020年3月 2022年3月 2021年3月

    2023年3月 160団体 2024年3月 行政サービスのデジタル変革 194団体 2024年9月 ✔ 自治体中心に273団体にサービスを導入 ✔ 4,100万人超の市民を対象にサービスを提供 ✔ 政令指定都市の70%で導入実績がある 導入団体の例(一部)
  5. データ分析・処理 一括処理 アプリケーション エンタープライズ向け生成AISaaS「Graffer AI Studio」 • 汎用的に活用できるチャットサービスを起点としながら、より簡易的に生成AIを活用できるアプリケーションや、 高度な活用や定常業務の効率化につながるような機能を幅広く提供 6

    チャットサービス • GPT/Geminiなどモデル切り替え機能 • プロンプトのテンプレート共有機能 • 法人利用に即したアカウント管理 など多数搭載。 タスクライブラリ 営業や経営企画など業務タスクごとにアイテムを用意。 フォーム入力をするだけでプロンプトなしに生成AI活用が可能。 ExcelやCSVなどのファイルを読み込んで、 集計処理や詳細なデータ分析を行うことが可能。 定性的なアンケートのカテゴリ分類や、大量の求人原稿の作成な ど、同種のプロンプトの実行を繰り返し行う場面で、その処理を 一括で行うことが可能。 ワークスペース 社内のドキュメントを継続的に管理し、チャット機能を通じて検 索・参照をしながら新しい成果物を生み出すことが可能。 音声文字起こし 音声や動画データをアップロードすることで、簡単に文字起こし ができ、議事録の作成やWord / PDFファイルの生成が可能。 ファイル検索 その場でPDFなどのファイルを読み込んで、単発的に、 チャットの指示で文言の検索や示唆出しなどの処理が可能。 事業者向け
  6. 複数プロダクトの信頼性を少人数で支えるという課題 • 業務プロセスに摩擦がある領域のプロダクト群を多数展開。 • 全プロダクトを横断して「高い信頼性・セキュリティ・運用性」を担保する必要がある。 • しかし、インフラ基盤(主にAWS / EKS) と運用を見るSREチームは少人数。

    主なシステム構成 • アプリケーション基盤は主にAWS / EKS • プロダクト・環境ごとにAWSアカウントを分離 • 一部でGoogle Cloud / Azureも利用 • SREはクラウド境界、EKS、CI/CD、Datadog、セキュリティ検知を横断して見る 8
  7. 機械的に満たすべき4つの基準: Security | Maintainability | Monitoring / Observability | Reliability

    これらを人間のチェックリストではなく、3つのフェーズでシステムに組み込む 本番準備の基準を仕組みに落とす「3層のガードレール」 10
  8. 【作る前】SREの判断をコードとして配る - Terraformモジュール よく使うリソースをTerraformモジュールとして提供する。 • S3 / KMS / ECR

    • Aurora / RDS • backup • Datadog Forwarder 目的は単なるコードの再利用ではない • セキュリティ、ガバナンス、運用ルールを「標準部品」として配るための仕組み。 • プロダクトチームはモジュールを使うことで、推奨設定に自然に乗れる。 • 標準から外れる場合は、Pull Requestに理由を残す。 13
  9. 【作る時】CIとPolicy as Codeで検知する Pull Requestの段階で、変更範囲とリスクを機械的に確認する • 変更されたservice / envだけを対象にCIを実行する •

    terraform fmt / validate / plan をPull Request上で確認する • applyは原則CI経由にする • TrivyやRego policyで設定ミスを検知する • 補助的にAIレビューも使う • CODEOWNERS reviewで責任境界を明確にする レビューで毎回思い出すべきルールは、できるだけCIに寄せる。 17
  10. 【作った後】運用リスクを検知し、担当チームへ自立的に通知する EKS上でよく起きる運用リスクは、共通のDatadog Monitorで検知する。 • OOMの多発 • Job / CronJobの失敗 •

    BackOff / CrashLoopBackOff • DaemonSetのready不足 • NodeGroup単位のCPU / Memory request過多 • ログ取り込み量の急増 アラートはowner情報からチームごとにSlackでメンションする。 確認先や対応方針も入れて、担当チームが自分たちで動ける状態にする。 20
  11. 【作った後】Datadogを使ったセキュリティモニタリング Datadog CSM(Cloud Security Management) • クラウドリソースの設定ミスを検知する • S3 bucketやRDSの暗号化、backup

    retention period • 意図しないPublic設定 • IaCで防いだはずのルールが、実環境でも守られているかを見る Datadog Workload Security • コンテナやPod上の実行時イベントを検知する • 不審なプロセス実行 • 想定外のファイル・ネットワーク操作 • 実行時にしか分からない異常を拾う MonitorやCSMカスタムルールもTerraformで管理し、監視設定そのものもレビュー可能にしている。 22
  12. まとめ 少人数SREでは、信頼性を仕組みとして配る • 振り返ると、やっていることはPlatform Engineering的でもある • ただし目的は、開発者体験だけではない • 少人数SREで信頼性・セキュリティ・運用性を維持すること •

    セルフサービスは自由放任ではなく、ガードレールとセットで成立する • 標準部品・CI・監視を通じて、プロダクトチームが安全に自走できる状態を作る 24