Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ファインディにおけるマルチプロダクト横断の次世代ログプラットフォームの設計思想

 ファインディにおけるマルチプロダクト横断の次世代ログプラットフォームの設計思想

クラウドネイティブ会議2026での登壇資料です。

https://kaigi.cloudnativedays.jp/sessions/3058/?from=timetable&day=day2

Avatar for kouzyun

kouzyun

May 17, 2026

More Decks by kouzyun

Other Decks in Technology

Transcript

  1. 目次 a g e n d a 1. ⾃⼰紹介 2.

    ファインディについて 3. SREチームの変遷とマルチプロダクト化 4. 横断ログ基盤の設計と全体像 5. ログ検索エージェントによる運⽤⾃律化 6. まとめ 2
  2. 原 昂司 / こうじゅん(@kouzyunJa) ファインディ(株) / CTO室 Platform開発チーム / SRE

    • 2024年12月ファンディにジョイン • Platform SREとして横断的なプロダクトの信頼性向上 • 主にインフラ基盤側を担当 • blog: kouzyun.dev • hobby: J-ROCK / 🎸 / 🏃 / ☕ • 最近、Proxmoxで自宅ラボつくった 自己紹介
  3. 会社概要 会社名 ファインディ株式会社 / Findy Inc. 代表取締役 ⼭⽥ 裕⼀朗 設⽴

    2014 年 2 ⽉ ※ 本格的な事業開始は2016年7⽉ 全従業員数 478 名 ※2026年1⽉時点 資本⾦ 19億9,692万円 ※ 資本準備⾦含む 住所 東京都品川区大崎1-2-2 アートヴィレッジ大崎セントラルタワー 5階 事業許可番号 13-ユ-308478 サービス ‧IT/Webエンジニアの転職サービス「Findy」 ‧ハイスキルなフリーランスエンジニア紹介サービス「Findy Freelance」 ‧経営と開発現場をつなぐAI戦略⽀援SaaS「Findy Team+」 ‧開発ツールのレビューサイト「Findy Tools」 ‧テックカンファレンスのプラットフォーム「Findy Conference」 ‧顧客価値を追求する、AI時代の製品開発マネジメント「Findy Insights」等 投資家 グローバル‧ブレイン、ユナイテッド、SMBCベンチャーキャピタル、KDDI、 JA三井リース、みずほキャピタル、博報堂DYベンチャーズ、Carbide Ventures、等 会社概要
  4. 9 24万⼈ 3,700 社 登録企業数 会員登録数 ※ Findy 転職、Findy Freelance、Findy

    Team+、Findy Toolsの4サービス累計での会員登録数及び登録企業数です。   なお、1社又は1名の方が複数のサービスに登録している場合は、そのサービスの数に応じて複数のカウントをしています。 複数サービスの展開により、多くのエンジニアに⽀持されています
  5. Findy Team+とは|経営と現場をつなぐVertical AI 開発⽀援ツールのデータを活⽤し、3ステップでビジネス成果の改善を促進      1 可視化 開発ワークフローを可視化し 明確なインサイトを取得 2

    AI分析 AIを活用して、開発効率と 開発者体験を最大化するための課 題を自動で特定 3 改善 データに基づいた意思決定で ビジネス成果を最大化 Claude Code GitHub Copilot Cursor Devin その他、多数... AIツール コード管理 プロジェクト管理 10
  6. 15

  7. Platform SRE と Embedded SRE の役割分担 Platform SRE • プロダクト横断‧共通基盤

    • 標準化 • セキュリティ全体統制 • ⾃動化‧トイル削減 Embedded SRE • プロダクト特化‧固有課題 • 固有バグ対応 • パフォーマンスチューニング 17 隔週で定点観測会(SLO振り返り会)を開催して情報共有
  8. プロダクトが増えると、⽐例して管理対象も増える • SLI/SLO、オブザーバビリティ • AWS/GitHub管理 • IAM / 権限設計 •

    コスト管理対象 • セキュリティ →プロダクト数は増えるがSREチームのメンバーはなかなか増えない。。。。 21
  9. 25 [Claude Code Plugin] • 社内でよく使う構成を Terraform 汎⽤モジュールとして整備 • モジュールでのTerraform

    記述⽀援SkillsをClaude Pluginで配布 [SRE 留学制度] • 新プロダクトのインフラ構築を開発メンバーが主体的に実⾏する • SLI/SLO、モジュール構成‧Plugin の説明ドキュメントを整備して渡す • 構築は開発メンバーがメイン、SRE はサポートに回る • もくもく会‧定点観測会(SLO振り返り会)で疑問を集中対応 Enabling 施策の例: Claude Code Plugin / SRE 留学制度
  10. 横断ログ基盤の前提 28 ⽤途 • 障害‧エラーの原因調査 • プロダクト横断の傾向分析 → 多少のラグは許容 →

    収集対象: アプリケーションログ (監査‧セキュリティログは    Security Lake で担保) 収集範囲 • AWS 対象外 • AWS 以外のクラウド (Google Cloud 等)
  11. Centralization Rule の主要特徴 33 [Centralization Rule でできること] • Firehose /

    Lambda 不要でアカウント間の集約が完結 • アカウント単位でログ取り込み • 暗号化済みロググループも集約 • ソースアカウント側で個別の設定不要 [AWS Organizations による権限委譲] • Root アカウントから Logarchive アカウントへ権限委譲 (Delegated Administrator)により可能になる • 1つのルールで Organizations 全体に⾃動適⽤ [制約] • ルール作成後の新規ログのみ対象(過去ログは集約されない)
  12. 新規プロダクトのアカウント追加時 34 集約ルールの scope に AccountId を追加するだけ • • •

    centralization_rule.tf resource "aws_observabilityadmin_centralization_rule_for_organization" "cwl" { rule { source { scope = join(" OR ", [ "AccountId = 'xxx'", "AccountId = 'yyy'", "AccountId = 'zzz'", "AccountId = 'new-account-id'", # 新規プロダクトアカウント ID追加 ]) } } }
  13. データレイク化: S3 Tables Integration 36 [S3 Tables Integration の特徴] •

    Apache Iceberg 形式の構造化データレイクにできる • Athena / Iceberg 互換ツールから SQL でクエリ可能 • read-only (ユーザー書き込み不可、CloudWatch が⾃動投⼊)
  14. 39 監査‧セキュリティログ基盤: Security Lake • 監査‧セキュリティ系 AWS ログ (CloudTrail /

    VPC Flow Logs / WAF / Route 53 等) を収集 • OCSF スキーマで標準化されたデータレイク (S3 + Iceberg) • マネージドで⾃動収集 • Athena から SQL で分析可能
  15. ログ検索エージェントの背景 41 • ログ基盤の集約は完了 • Athena / Grafana での可視化‧分析は有識者なら可能 •

    開発陣の SRE 領域への興味‧関⼼を広げ、⾃律化‧Enabling の起点としたい • そのために⾃然⾔語で検索できるようにしたい
  16. 44 Bedrock AgentCore の採⽤理由 [DevOps Agent] • S3 / S3

    Tables への能動的なクエリが仕様上できない [Claude Code Skills / Plugin] • ローカルで実⾏者の AWS Profile が持つ IAM 権限に依存し、過剰な権限で 実⾏される懸念(ガードレールの整備をきちんとしたい)
  17. 45 Bedrock AgentCore の採⽤理由 [Bedrock AgentCore を採⽤した理由] • Slack /

    Lambda から API として呼べる • 権限境界を IAM × Lake Formation で AWS 側に寄せられる • ログ検索を起点に運⽤エージェントとして機能拡張‧改善し続けられる
  18. 49 今後の展望 [ガードレール強化] • hooks 機能強化 • AgentCore Identity でユーザー単位の認証‧監査

    • Athena Workgroup でクエリスキャン量上限を⾃動制御 [機能拡張] • SLO 振り返り⽤サマリ⽣成の⾃動化 (Datadog MCP 連携 + 定期実⾏) • 社内ドキュメントの参照 (Bedrock Knowledge Bases) • 過去調査の⽂脈保持 (AgentCore Memory) • Slack アラート発報時の⾃動サマリ
  19. まとめ 51 • Platform SREの管理対象はプロダクト数に応じて増える • 個別対応を続けるとPlatform SREがボトルネックになる • 開発チームの⾃律⽀援

    (Enabling) に注⼒ • ログ基盤は、開発チームの Enabling を⽀える基盤として設計 • ログ検索エージェントを起点に、運⽤⾃動化 (AIOps) の改善へ
  20. 52